автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров

доктора технических наук
Фомичев, Владимир Александрович
город
Москва
год
2004
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров»

Автореферат диссертации по теме "Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров"

Министерство образования и науки Российской Федерации

Московский государственный институт электроники и математики (Технический Университет)

На правах рукописи

Фомичев Владимир Александрович

МЕТОД ФОРМАЛЬНОГО ОПИСАНИЯ СОДЕРЖАНИЯ СЛОЖНЫХ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ И ЕГО ПРИМЕНЕНИЕ К ПРОЕКТИРОВАНИЮ ЛИНГВИСТИЧЕСКИХ ПРОЦЕССОРОВ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат диссертации на соискание ученой степени доктора технических наук

Москва - 2004

Работа выполнена на кафедре математического обеспечения систем обработки информации и управления факультета прикладной математики Московского государственного института электроники и математики (технический университет)

Официальные

Оппоненты: доктор технических наук,

профессор Е.С. Кузин доктор технических наук, профессор Ю.П. Кораблин доктор технических наук, профессор В.П. Кулагин

Ведущая организация: Институт проблем управления

им. В А Трапезникова РАН.

Защита диссертации состоится 21 декабря 2004 г.

В /6 ч. 00 мин. на заседании диссертационного Совета Д 212.133.01 при МГИЭМ (ТУ) по адресу:

109028, Москва, Б. Трехсвятительский переулок, д. 1-3/12 строение 8, зал Ученого Совета С дисертацией можно ознакомится в библиотеке МГИЭМ.

Автореферат разослан " 20" ноябрь 2004 г.

Ученый секретарь диссертационного Совета Д212.133 01 При МГИЭМ (ТУ) к.т.н., доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. За последние два десятилетия научно-техническое направление "искусственный интеллект" получило значительное развитие и нашло целый ряд успешных применений. Основная часть информации хранится и передается людьми с помощью естественного языка (ЕЯ), т.е. совокупности русского, английского, японского и других языков. Один из главных классов компьютерных систем с элементами искусственного интеллекта (СИИ) составляют программы, понимающие ЕЯ или синтезирующие выражения ЕЯ по некоторым внутренним представлениям. Такие программы называются системами обработки естественного языка (СОЕЯ), или лингвистическими процессорами (ЛП).

Прогресс, достигнутый за последние два десятилетия в области проектирования ЛП, выразился в появлении широкого спектра областей применения ЛП. Такими областями, в частности, являются: машинный перевод письменных текстов (исторически первая область использования ЛП) и устной речи; естественноязыковые интерфейсы (ЕЯ-интерфейсы) прикладных интеллектуальных систем: экспертных систем, расчетно-логических систем, автономных интеллектуальных роботов; синтез текстов, представляющих рекомендации пользователю экспертной системы (медицинской диагностики, технической диагностики и др.) в естественноязыковой форме; проектирование концептуальных схем баз данных посредством преобразования ЕЯ-спецификаций предметной области в концептуальную схему базы данных.

Развитие исследований в области конструирования ЛП привело к появлению новых теоретических и практических задач.

Государственными и коммерческими организациями накоплены большие запасы информационных ресурсов, содержащих знания о предметных областях. Для повышения эффективности работы сотрудников с накопленными знаниями крупные компании в мире разрабатывают или уже разработали и используют системы управления знаниями. По имеющимся в литературе оценкам, более 70% ресурсов, накопленных в различных организациях, носит неструктурированный характер и образуется электронными текстовыми документами. Поэтому, по мнению ряда авторов, повышению эффективности работы сотрудников различных организаций с накопленными информационными ресурсами будет способствовать разработка интеллектуальных поисковых систем с ЕЯ-интерфейсами, способных осуществлять смысловой анализ естественно-языковых полей разнообразных используемых электронных документов и, как следствие, давать ссылки на документы, интересующие пользователя, или формулировать ответы на поставленные вопросы.

Острой научно-технической проблемой является автоматизация контроля полноты и информационной целостности документации разрабатываемых сложных технических систем (в частности, летательных, надводных и подводных аппаратов). В статье Б.В. Доброва, Н.В. Лукашевич, О.А. Невзоровой, Б.Е. Федунова (Известия АН, Т и СУ, 2004, № 2) отмечается, что, в силу целого комплекса причин (календарных, профессионально-психологических), организационные мероприятия по обеспечению смысловой полноты и информационной целостности документации сложных технических систем не дают желаемого эффекта. Как следствие, нередко документ передается на следующий этап разработки со значительным количеством смысловых пропусков и противоречий. Ситуации такого рода могут привести к гибели людей и большому экономическому и экологическому ущербу. В связи с этим актуальна разработка компьютерных систем, предназначенных для подготовки ЕЯ-текстов, описывающих сложную техническую сист,_ документации на смысловую полноту и информа! ,ивй

Другой острой проблемой теории СИИ является автоматизация формирования баз знаний (БЗ) СИИ. Основная часть знаний, накопленных человечеством, хранится в виде естественно-языковых текстов (ЕЯ-текстов). Поэтому в последние годы реализован или реализуется ряд проектов, направленных на автоматическое извлечение знаний из ЕЯ-текстов. Значительное внимание в Германии, США, Японии и некоторых других странах уделяется проблеме автоматизации извлечения знаний из биологических и медицинских документов (отчетов об исследованиях, статей в научных журналах и т.д.). Однако построенные системы извлечения знаний из ЕЯ-текстов обладают весьма узкими способностями понимания ЕЯ-текстов, особенно связных текстов (дискурсов), т.е. последовательностей взаимосвязанных по смыслу фраз на ЕЯ. Это выражается в использовании разнообразных

узкоспециализированных шаблонов для извлечения знаний. Центральной причиной этого положения является недостаточная проработанность вопросов формального описания закономерностей передачи информации средствами ЕЯ, т.е. вопросов формализации семантики ЕЯ.

Благодаря бурному прогрессу компьютерной сети Всемирная Паутина (the World Wide Web, WWW, W3) пользователи сети во всем мире получили быстрый доступ к огромному количеству ЕЯ-текстов, относящихся к различным областям деятельности человека. С середины 1990-х годов специалисты в самых разных предметных областях работают не только с публикациями и базами данных (БД) своих организаций, но и стремятся использовать информационные ресурсы Паутины. Поэтому чрезвычайно актуальна задача организации взаимодействия на ограниченном естественном языке из различных предметных областей с огромным объемом накопленных информационных ресурсов Всемирной Паутины.

ЕЯ-интерфейсы для взаимодействия с информационными ресурсами Паутины необходимы не только специалистам для решения профессиональных задач, но и конечным пользователям, перед которыми стоят задачи получения медицинской или юридической информации, расширения культурного кругозора и т.д.

В феврале 2001 г. консорциум сети Всемирная Паутина, обозначаемый в большинстве документов сокращением W3C (the World Wide Web Consortium), официально объявил о широком развертывании исследований по преобразованию существующей сети в Семантическую Всемирную Паутину (Semantic Web). Один из наиболее важных аспектов реализации этого крупномасштабного проекта заключается в том, что компьютерные интеллектуальные агенты (КИА) смогут анализировать информацию, представленную на Веб-сайтах, взаимодействуя между собой. Часть КИА сможет выполнять смысловой анализ ЕЯ- компонентов электронных документов, представленных в Веб-сайтах. Это даст возможность конечным пользователям осуществлять поиск информации в Паутине не по ключевым словам, а по смыслу, с помощью КИА. Важные дополнительные возможности для пользователя предоставят речевые браузеры. Такие браузеры позволят использовать телефоны (в том числе мобильные) для взаимодействия с Семантической Паутиной на естественном языке.

Развитие гражданского общества в нашей стране существенно зависит от степени доступности государственных информационных ресурсов. Обеспечение такой доступности является одной из центральных задач федеральной целевой программы "Электронная Россия (2002 - 2010 годы)". Огромную роль в обеспечении доступа общественности к государственным информационным ресурсам должны сыграть электронные библиотеки (ЭлБ). Для обеспечения подлинной широты доступа пользователей ЭлБ к информационным ресурсам необходимы интеллектуальные поисковые системы» с • ЕЯ-интерфейсами, способные отыскивать информационные

источники или находить ответы на вопросы конечных пользователей на основе осуществления смыслового анализа (а) запроса пользователя, (б) естественноязыковых полей разнообразных хранящихся электронных документов и сравнения содержания запроса пользователя с содержанием анализируемых текстовых полей электронных документов. Поэтому одной из центральных научных задач, связанных с созданием ЭлБ, является автоматизация семантического анализа ЕЯ-текстов с целью смыслового поиска информационных источников.

В свете перечисленных и ряда других направлений применения ЛП, проблеме разработки теории и методов компьютерного понимания ЕЯ-текстов и извлечения знаний из ЕЯ-текстов было уделено значительное внимание на Научной сессии Отделения информационных технологий и вычислительных систем РАН, состоявшейся в Москве в мае 2003 года.

Накопленный опыт исследований по созданию ЛП показал, что огромное влияние на проектирование анализаторов ЕЯ-текстов оказывают используемые методы формального отображения содержания (или смысла) текстов, а также методы формального представления промежуточных результатов смыслового анализа текстов. Особую актуальность в 1990-е годы приобрела проблема формального представления содержания связных текстов (или дискурсов).

Во-первых, основной объем информации в текстовых БД и сети Интернет представлен дискурсами. Во-вторых, сформулированная Э.В. Поповым современная концепция разработки систем общения с БД на ограниченном естественном языке (ОЕЯ) предполагает, что на вход системы поступают не только предложения, но и дискурсы. В-третьих, можно согласиться с высказанной Э.В. Поповым гипотезой о том, что повышению эффективности общения на ОЕЯ с большими БД будет способствовать реализация таких систем общения, когда активную роль в диалоге будет играть не только конечный пользователь, но и компьютер, располагающий моделью базы знаний, причем инициатива будет на протяжении диалога неоднократно переходить от одного участника общения к другому. Последовательность выражений на ОЕЯ (с указанием авторов выражений), сформированных участниками общения, образует дискурс.

Можно выделить несколько наиболее важных аспектов проблемы формального представления содержания (или смысла) ЕЯ-текстов в компьютерных системах.

Идея использования в системах машинного перевода искусственного языка-посредника для представления смысла ЕЯ-текстов была высказана еше в начале 1960-х годов А.К. Жолковским, Н.Н. Леонтьевой и Ю.С. Мартемьяновым. В 1960-е - 1970-е годы эта идея получила значительное развитие в работах А.К. Жолковского и И.А. Мельчука по лингвистической модели "Смысл - Текст". В 1970-е годы усилению внимания к идее семантического языка-посредника способствовала теория смысловой зависимости в ЕЯ Р. Шенка, нашедшая применение в нескольких экспериментальных системах компьютерной обработки ЕЯ.

Использование языка-посредника для представления содержания (смысла) ЕЯ-текстов позволяет перейти от неформализованного объекта, каким является ЕЯ-текст, к формальной структуре, что открывает возможности обработки этой структуры различными процедурами - "семантическими экспертами" в рамках базы знаний, представленных записями на формальном языке (языке представления знаний).

На протяжении 1980-х - 2000-х годов в проектировании ЛП наиболее часто использовались языки-посредники, предоставляемые теорией семантических сетей, теорией фреймов, теорией концептуальных графов и эпизодической логикой. В нашей стране использовались также расширенные семантические сети, язык-посредник, разработанный в рамках компьютерной семантики русского языка В.А. Тузова,

стандартные К-языки, предложенные автором данной работы, и некоторые другие подходы.

В середине 1990-х годов возникла новая проблема, усилившая внимание исследователей к проблеме разработки языка-посредника для отображения содержания ЕЯ-текстов. С целью устранения языкового барьера между пользователями сети Интернет из разных стран мира, Х.Учида и М. Жу (Япония) предложили новый язык-посредник, использующий слова английского языка для обозначения информационных единиц и несколько специальных символов. Этот язык, названный универсальным сетевым языком (UNL, the Universal Networking Language), базируется на идее отображения содержания фраз с помошью бинарных отношений. С конца 1990-х годов ООН финансируется комплексный проект, направленный на разработку системы ЛП, преобразующих фразы на различных естественных языках в выражения языка UNL, а также преобразующих выражения языка UNL в предложения на различных естественных языках. Координатором проекта является Институт передовых исследований ООН Токийского университета. В настоящее время в проекте разрабатываются ЛП для шести официальных языков ООН и ряда других языков.

Анализ научной литературы показывает, что существует глубокая связь между проблемой формального описания содержания ЕЯ-текстов и проблематикой разработки информационных технологий (ИТ), основанных на представлении и обработке сложноструктурированных знаний. До последнего времени разработчики ИТ для автоматизации решения разнообразных практических задач основное внимание уделяли поиску методов решения алгоритмически-сложных задач. При этом не было широко осознано существование класса информационно-сложных задач, для которых необходимы языки представления знаний о проблемной среде с большими выразительными возможностями. Такие языки должны, в частности, позволять отображать большое количество различных смысловых аспектов проблемной среды, обрабатывать информацию с разных точек зрения, строить многоуровневые обобщения и интегрировать информацию.

Успех применения технологии функционально-ориентированного проектирования (ФОП), разработанной в концу 1990-х годов под руководством Е.С. Кузина, к решению ряда информационно-сложных задач во многим базировался на созданной Е.С. Кузиным теории конструктивной семантики естественного языка и разработке в рамках этой теории оригинального языка описания декларативных знаний. В частности, этот язык позволяет различать обозначения объектов и понятий, строить описания подмножеств объектов, задавать семантические ограничения на атрибуты предикатов, на аргументы и значения функций.

Анализ публикаций по ФОП-технологиям и конструктивной семантике ЕЯ дает веские основания предположить, что прогресс на пути создания методов формального описания содержания сложных (для существующих теорий) ЕЯ-текстов будет позитивно влиять на автоматизацию решения информационно-сложных задач в различных предметных областях.

Проблема создания широко применимых методов формального описания содержания (смысла) предложений и дискурсов (другими словами, описания структурированных значений ЕЯ-текстов) тесно соприкасается с потребностями развития таких бурно развивающихся направлений информатики, как многоагентные системы (MAC) и электронная коммерция. Взаимодействие компьютерных интеллектуальных агентов (КИА) осуществляется через обмен посланиями (messages), которые могут выражать сообщения, вопросы и команды. Для формирования таких посланий разрабатываются специальные языки общения

интеллектуальных агентов (Agent Communication Languages, или ACL). Для координации деятельности исследовательских центров разных стран по разработке стандартных инструментальных средств в области MAC в 1996 г. образован международный Фонд интеллектуальных физических агентов (The Foundation for Intelligent Physical Agents, или FIPA), штаб-квартира которого находится в Женеве. В 1997 - 2000 годах в рамках этого фонда был разработан стандарт языка общения КИА, который в дальнейшем будет называться FIPA ACL. Часть этого языка, предназначенная для представления содержания посланий (в отличие от внешней информации - об отправителе, получателе и т.д.), названа семантическим языком (FIPA Semantic Language, или FIPA SL). Фондом поставлена задача разработки библиотеки языков представления содержания посланий КИА (Content Languages), совместимых с этим языком и охватывающих весь спектр применений MAC.

Многоагентные системы рассматриваются как ключевая технология для реализации электронной коммерции. Следовательно, выразительные возможности языка общения КИА должны быть достаточными для того, чтобы представлять содержание произвольных коммерческих переговоров и контрактов, заключенных в результате этих переговоров. Поэтому формальные языки для представления содержания коммерческих переговоров и контрактов являются предметами исследования в новом научном направлении в области MAC, называемом электронными переговорами (e-negotiations).

Между тем, выразительные возможности семантического языка FIPA SL довольно далеки от того, чтобы быть удобными для решения этой задачи. В связи с этим актуальна задача создания методов разработки более совершенных формальных языков - таких, которые были бы удобны для представления содержания любых посланий КИА, в том числе и для представления содержания произвольных коммерческих переговоров и контрактов.

Проблема разработки формальных языков-посредников для отображения содержания (или смысла) ЕЯ-текстов (другими словами, языков семантических представлений, или семантических языков) исследуется специалистами разных стран в течение более трех десятилетий. В нашей стране ряд аспектов этой проблемы в различные периоды изучались Ю.Д. Апресяном, И.М. Богуславским, В.М. Брябриным, В.Н. Вагиным, Б.Ю. Городецким, А.К. Жолковским, И.М. Зацманом, А.П. Ершовым, Ю.И. Клыковым, О.С. Кулагиной, Е.С. Кузиным, Л.Т. Кузиным, И.П. Кузнецовым, Д.Г. Лахути, Н.Н. Леонтьевой, Л.И. Литвинцевой, ЮЛ. Любарским, М.Г. Мальковским, А.Г. Мацкевичем, И.А. Мельчуком, А.С. Нариньяни, Г.С. Осиповым, Г.С. Плесневичем, Э.В. Поповым, Д.А. Поспеловым, В.Ш. Рубашкиным, В.А. Тузовым, З.М. Шаляпиной, Г.С. Цейтиным, Л.Л. Цинманом и другими учеными.

За рубежом наибольший вклад в разработку методов математического описания содержания (смысла) ЕЯ-текстов внесли Р. Монтегю (грамматики Монтегю), Дж. Барвайз и Р. Купер (теория обобщенных кванторов, ситуационная теория), М. Кресвелл (теория структурированных значений предложений), Й. Гронендейк и М. Стокхоф (динамические грамматики Монтегю, динамическая предикатная логика), Дж. Сова (теория концептуальных графов), Л. К. Шуберт и Ч.Х. Хуан (эпизодическая логика), Г. Камп и У. Рейль (теория представления дискурсов). Несмотря на усилия, предпринимавшиеся в течение многих лет учеными разных стран, до последнего времени многие существенные аспекты проблемы формального описания содержания ЕЯ-текстов оставались мало изученными. Одна из основных причин этой ситуации заключается в том, что внимание уделялось, главным образом, формализации смысловой структуры отдельных фраз, а не дискурсов. Кроме того, недостаточно

изученной является проблема формального описания смысловой структуры отдельных фраз, обозначающих высказывания и включающих описания множеств и/или придаточные цели и/или слова "понятие", "термин", а также структуры фраз, выражающих команды и вопросы.

Наконец, сегодня ясно, что понимание ЕЯ-текста осуществляется в контексте системы знаний о мире и о целях интеллектуальных систем. Однако выразительные возможности большинства известных подходов к математическому описанию смысловой структуры ЕЯ-текстов (а именно, грамматик Монтегю, теории обобщенных кванторов, ситуационной теории, теории структурированных значений предложений, динамических грамматик Монтегю, динамической предикатной логики) недостаточны для построения теорий компьютерного понимания ЕЯ в контексте системы знаний о мире и о целях интеллектуальных систем. Например, исследования по дескриптивным логикам, выросшие из работ по терминологическим языкам представления знаний (ЯПЗ), показали полезность включения в состав ЯПЗ составных обозначений понятий. Однако перечисленные непосредственно выше подходы не предоставляют такой возможности.

Проблема автоматизации формирования баз знаний СИИ посредством извлечения информации из ЕЯ-текстов с помощью ЛП, проблема разработки семантического языка-посредника для устранения языкового барьера между пользователями сети Интернет и ряд других актуальных научно-технических проблем требуют создания эффективных средств формального представления содержания произвольных ЕЯ-текстов, относящихся к деловой прозе (термин А.П. Ершова, ставший широко популярным в компьютерной лингвистике), т.е. ЕЯ-текстов, относящихся к юриспруденции, бизнесу, медицине, технике и т.д.

Однако перечисленные наиболее популярные подходы к формальному представлению содержания ЕЯ-текстов имеют ограниченную сферу применения. В частности, не предостав-ляют адекватных формальных средств для представления содержания произвольных предло-жений с описаниями множеств или составными обозначениями понятий, дискурсов со ссыл-ками на смысл фраз и более крупных частей текстов, с обозначениями сложных целей, с кос-венной речью. Так, язык-посредник иКЬ ориентирован на представление содержания отдель-ных предложений, а не дискурсов. Кроме того, в иКЬ нет формальных средств описания множеств, средств различения описаний объектов и описаний понятий, квалифицирующих эти объекты, средств представления ссылок на смысл фраз и более крупных фрагментов дискурсов.

В связи с этим актуальна проблема разработки более мощных математических методов описания смысловой структуры реальных предложений и связных текстов, относящихся к юриспруденции, бизнесу, медицине, технике, экономике и т.д.

Наибольшие трудности при разработке ЛП связаны с выполнением преобразования "ЕЯ-текст Семантическое представление (СП) текста". Однако анализ как отечественных, так и зарубежных публикаций показывает, что при разработке преобразователей ЕЯ-текстов в СП текстов крайне недостаточно используются формальные средства. Это выражается в неформальном и фрагментарном описании структуры лингвистической базы данных (ЛБД), т.е. базы данных (БД) с морфологической и семантико-синтаксической информацией о лексических единицах, а также методов обработки информации основными подсистемами преобразователя "ЕЯ-текст СП текста".

Основная часть исследований по разработке ЕЯ-интерфейсов и ЛП других видов была реализована для английского языка, синтаксис которого существенно отличается от синтаксиса русского языка (РЯ). Чрезвычайно существенно то, что

полные описания информационного и программного обеспечения таких ЛП, как правило, недоступны специалистам в нашей стране. Кроме того, одним из следствий экономической ситуации, сложившейся в 1990-е годы в нашей стране, является отсутствие даже в центральных библиотеках огромного количества публикаций в области разработки ЛП, опубликованных за рубежом в 1990-е и 2000-е годы на английском и некоторых других языках. Все это серьезно затрудняет подготовку специалистов в нашей стране в области проектирования ЛП и сужает возможности принятия оптимальных проектных решений, приводит к дополнительным трудозатратам на разработку ЛП.

Учитывая сказанное, актуальной является проблематика разработки методов формального описания структуры ЛБД, а также таких методов семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков русского языка, которые более широко используют формальные средства описания входных, промежуточных и выходных данных по сравнению с известными методами.

Разработка ЛП многих видов, например, ЕЯ-интерфейсов больших БД, отличается значительной трудоемкостью. В связи с этим в данной диссертационной работе выдвигается гипотеза о том, что в долговременной перспективе сокращению затрат и времени на разработку семейства ЛП в рамках одной организации или нескольких взаимодействующих организаций будет способствовать реализация в проектировании информационного и алгоритмического обеспечения ЛП следующих двух принципов:

(1) принципа стабильности используемого языка семантических представлений (ЯСП) по отношению к многообразию решаемых задач, многообразию предметных областей и многообразию программных сред (стабильность понимается как использование единой системы правил для построения конструкций ЯСП и варьируемого набора первичных информационных единиц, определяемого предметной областью и решаемой задачей);

(2) принципа преемственности алгоритмического обеспечения ЛП на основе использования одной или нескольких совместимых формальных моделей лингвистической БД и единых формальных средств представления промежуточных и окончательных результатов семантико-синтаксического анализа ЕЯ-текстов по отношению к многообразию решаемых задач, предметных областей и программных сред (преемственность понимается как максимальное использование алгоритмов, реализуемых подсистемами ЛП).

В данной работе предпринята попытка создания значительной части предпосылок для реализации этих двух принципов при проектировании лингвистических процессоров. Целями работы являются:

1. Создание широко применимого метода формального описания содержания (смысла) предложений и связных текстов на естественном языке (в частности, на русском и английском языках), т.е. метода формального описания структурированных значений (СЗ) ЕЯ-текстов, базирующегося на принципиально новом подходе (по сравнению с подходами других исследователей) к описанию смысловой структуры ЕЯ-текстов.

2. Применение нового метода формального описания СЗ ЕЯ-текстов к расширению формального аппарата и языковых средств теории многоагентных систем.

3. Разработка нового метода проектирования семантико-синтаксических анализаторов (ССА) - компонентов естественно-языковых диалоговых систем с использованием формальных средств представления входных, промежуточных и выходных данных.

4. Применение нового метода формального описания СЗ ЕЯ-текстов и нового

метода проектирования ССА к разработке алгоритмического и программного

обеспечения русскоязычных интерфейсов прикладных компьютерных систем. Методы исследования. В работе использованы известные из математической логики, теории формальных языков и грамматик, теории систем искусственного интеллекта и разработанные автором методы определения формальных языков, а также разработанные автором метод формального описания структуры лингвистической базы данных естественно-языковой диалоговой системы и метод формального описания структуры входных данных ЛП и структуры промежуточных данных при выполнении преобразования "ЕЯ-текст ^ Семантическое представление текста". Научная новизна диссертационной работы определяется:

1. Созданием нового метода формального описания содержания, т.е. структурированных значений, предложений и связных естественно-языковых текстов (дискурсов) из широкого многообразия текстов деловой прозы: предоставляются существенно более широкие выразительные возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений. Метод базируется на разработанном диссертантом определении нового класса формальных языков - класса стандартных К-языков (СК-языков).

2. Перспективностью использования аппарата СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, значительно превышающими возможности языка UNL (Universal Networking Language), который используется в ряде финансируемых ООН проектов, направленных на создание универсального языка-посредника с целью устранения языкового барьера между пользователями сети Интернет из разных стран.

3. Расширением возможностей построения онтологий предметных областей по сравнению с известными подходами к этой проблеме.

4. Расширением возможностей проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции; в том числе, возможностями использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров.

5. Разработкой новой теории проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных, которая включает: (а) метод К-представлений; (б) формальную модель лингвистической базы данных (ЛБД), содержащей такую информацию о лексических единицах и их взаимосвязях с информационными единицами, которая достаточна для семантико-синтаксического анализа интересных для приложений подъязыков русского языка; (в) новый метод преобразования ЕЯ-текстов в их семантические представления (СП); (г) структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка.

Все результаты диссертации являются новыми и получены полностью автором. На защиту выносятся следующие основные научные результаты:

1. Разработана математическая модель, перечисляющая первичные единицы концептуального уровня, используемые лингвистическим процессором (ЛП), а также описывающая информацию, связанную с такими единицами и необходимую для соединения этих единиц в составные единицы, отображающие структурированные значения сколь угодно сложных ЕЯ-текстов. Модель включает определение нового класса формальных объектов, названных концептуальными базисами (к.б.), и исследование некоторых свойств к.б.

К важным преимуществам этой модели относятся возможности формального различения обозначений понятий и объектов, характеризуемых этими понятиями, сущностей и множеств сущностей, множеств и упорядоченных наборов, а также учет существования функций, аргументами и/или значениями которых могут быть множества, в том числе множества семантических представлений текстов и множества понятий.

Разработанная модель предлагает более "тонкоячеистую" структуризацию предметных областей по сравнению с основными известными подходами к формализации семантики ЕЯ, значительно увеличивает "разрешающую способность" формального инструментария, предназначенного для описания различных

предметных областей.

2. В развитие предыдущего результата построена математическая модель для описания содержания, т.е. структурированных значений (СЗ), предложений и сложных связных текстов (дискурсов) на естественном языке (в частности, на русском, английском, немецком, французском языках). Модель представляет собою определение нового класса формальных языков, названных стандартными К-языками (СК-языками), и может рассматриваться как формальная грамматика нового вида. Сущность этой модели в том, что она задает 10 операций на концептуальных структурах, с помощью которых за конечное число шагов можно построить семантическое представление (т. е. формальное представление СЗ) предложения или дискурса из чрезвычайно широкого подъязыка деловой прозы. Эта модель не имеет аналогов в мировой научной литературе.

Проведено математическое исследование формальных объектов, задаваемых этой моделью - выражений (или цепочек) СК-языков. В частности, доказана однозначность структурного анализа таких выражений.

3. Исследованы выразительные возможности класса СК-языков. Показано, что выражения СК-языков удобно использовать для: (а) построения семантических представлений (СП) предложений (выражающих высказывания, вопросы, команды) и сложных дискурсов на русском языке, (б) построения составных целей, (в) представления знаний о мире, в том числе для построения формальных определений понятий и объектно-ориентированных модулей знаний, (г) формализации лексической семантики.

Проведено сравнение выразительных возможностей СК-языков с выразительными возможностями других, наиболее часто используемых подходов к формальному представлению значений (смысловой структуры) ЕЯ-текстов: теории представления дискурсов, теории концептуальных графов, эпизодической логики, теории расширенных семантических сетей, компьютерной семантики русского языка. Показано, что выразительные возможности СК-языков значительно превосходят возможности каждого из перечисленных подходов и, в то же время, аппарат СК-языков позволяет аппроксимировать механизмы представления информации, характерные для каждого из указанных подходов.

4. Сделан вывод о том, что совокупность научных результатов, полученных в главе 1 и главе 2, образует новый метод формального описания содержания (т.е. структурированных значений) предложений и связных естественноязыковых текстов (дискурсов) из широкого многообразия текстов деловой прозы, предоставляя более широкие возможности по сравнению с другими известными подходами к этой проблеме. Этот предложенный метод формального описания содержания ЕЯ-текстов назван методом К-представлений.

5. Показана целесообразность применения аппарата СК-языков в качестве базового теоретического инструмента автоматизированной разработки документации сложных технических систем (в частности, летательных, надводных и подводных аппаратов) и анализа такой документации на смысловую полноту и непротиворечивость, а именно, для представления результатов семантико-синтаксического анализа словосочетаний, предложений и связных текстов (дискурсов) из технической документации систем.

6. Обоснована перспективность использования аппарата СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, значительно превышающими возможности языка UNL , который используется в ряде финансируемых ООН проектов, направленных на создание универсального языка-посредника с целью устранения языкового барьера между пользователями сети Интернет из разных стран.

7. Показано, что аппарат СК-языков расширяет возможности проектирования языков представления знаний о мире (в частности, терминологических языков представления знаний) и возможности построения онтологий предметных областей по сравнению с известными подходами к этим проблемам. В частности, это обусловлено тем, что аппарат СК-языков дает новые возможности построения составных обозначений множеств, понятий, целей интеллектуальных систем и назначений предметов.

8. Сделан вывод о том, что аппарат СК-языков целесообразно использовать в качестве средства построения СП словосочетаний, предложений и дискурсов из текстовых полей электронных документов при разработке Интернет-систем нового поколения, сочетающих в себе черты информационно-поисковых (тематический поиск) и вопросо-ответных систем.

9. Показано, что аппарат СК-языков расширяет возможности проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции. Обоснована возможность использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров.

10. Предложено формальное понятие морфологического базиса. Это понятие дает оригинальную математическую интерпретацию морфологических систем многих естественных языков, включая русский, английский и немецкий языки. Преимуществом этой интерпретации является ее высокий уровень общности, позволяющий рассматривать морфологический анализ слов языка в качестве составной части семантико-синтаксического анализа текстов без углубления в детали морфологического анализа. Предложено формальное понятие морфологического базиса Р-типа (русскоязычного типа), отражающее особенности морфологии русского языка.

11. Разработана формальная модель лингвистической базы данных (Л БД), содержащей такие сведения о лексических единицах и их взаимосвязях с информационными единицами, которые достаточны для семантико-синтаксического анализа интересных для приложений подъязыков русского языка. С этой целью определено понятие лингвистического базиса.

12. Разработан новый метод преобразования ЕЯ-текстов в их семантические представления (СП). Метод предусматривает использование предложенного автором матричного семантико-синтаксического представления (МССП) входного текста как промежуточного представления при переходе от ЕЯ-текста к СП текста, являющемуся выражением некоторого СК-языка (т.е. К-представлением текста). При этом не используется традиционное синтаксическое представление текста.

13. Предложен новый метод формального описания предположений о структуре входных текстов лингвистического процессора на основе комбинированного использования аппарата бесконтекстных (или контекстно-свободных) грамматик и введенного в диссертации понятия лингвистического базиса.

14. Разработан структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка. Этот алгоритм является композицией двух построенных автором алгоритмов:

(а) структурированного алгоритма преобразования текстов из представляющих практический интерес подъязыков естественного (русского) языка в их матричные семантико-синтаксические представления; тексты могут выражать высказывания, вопросы и команды, включающие, в частности, составные обозначения множеств, причастные обороты и придаточные определительные предложения;

(б) структурированного алгоритма преобразования МССП входного текста в его К-представление - семантическое представление, являющееся выражением некоторого СК-языка.

По глубине проработки вопросов преобразования морфологического представления текста в его СП и ясности описания предложенных решений разработанный алгоритм не имеет аналогов как в отечественной, так и доступной зарубежной научной литературе.

Работоспособность предложенного структурированного алгоритма семантико-синтаксического анализа текстов из подъязыков естественного (русского) языка доказана успешным созданием на его основе семейства экспериментальных русскоязычных интерфейсов прикладных компьютерных систем, реализованных в программных средах Турбо-Паскаль, версия 7.0, Си, Си++, Delphi 4.0, 5.0, Action Script, PHP.

15. Совокупность научных результатов, полученных в главах 1, 2, 4, 5, и часть научных результатов главы 3 образуют новую теорию проектирования семантико-синтаксических анализаторов естественно-языковых текстов с использованием формальных средств представления входных, промежуточных и выходных данных.

Совокупность теоретических положений, разработанных в диссертации на основании выполненных автором исследований, может быть квалифицирована как новое крупное научное достижение в области разработки математического и программного обеспечения вычислительных машин, комплексов и компьютерных сетей.

Достоверность результатов, полученных в диссертационной работе, обусловлена корректностью математических определений и доказательств; согласованностью

результатов с известными подходами, представленными в отечественной и зарубежной литературе; работоспособностью разработанных компьютерных программ, реализующих предложенные алгоритмы и использующих предложенную в диссертации логическую структуру лингвистической базы данных (ЛБД); успешным использованием в учебном процессе определения класса СК-языков, формальной модели ЛБД и алгоритма семантико-синтаксического анализа ЕЯ-текстов, а также объективным анализом полученных результатов.

Практическая ценность я предложения по использованию результатов.

Диссертация носит теоретический характер. Ее практическая ценность заключается в

- разработке определения нового класса формальных языков (класса СК-языков) и базирующегося на этом определении нового метода формального отображения содержания (смысла) ЕЯ-текстов (метода К-представлений), который впервые предоставляет проектировщикам лингвистических процессоров (ЛП) формальные средства отображения содержания сложных связных ЕЯ-текстов, а также содержания фраз некоторых видов (в частности, фраз со словом "понятие", часто встречающихся в учебниках и энциклопедических изданиях);

- анализе перспектив, открываемых определением класса СК-языков для разработки семантического сетевого языка нового поколения с выразительными возможностями, значительно превышающими возможности языка-посредника UNL;

- выявлении широкого спектра новых возможностей, которые определение класса СК-языков и метод К-представлений предоставляют проектировщикам онтологии и разработчикам информационного обеспечения многоагентных систем, в том числе разработчикам языков отображения содержания посланий компьютерных интеллектуальных агентов (КИА) и разработчикам языков представления содержания коммерческих переговоров, осуществляемых КИА в области электроникой коммерции, а также языков формирования контрактов, заключаемых КИА в ходе переговоров;

- построении формальной модели лингвистической базы данных (ЛБД), которая в компактной форме, не зависящей от предметной области и среды программирования, задает логическую структуру широко применимых ЛБД ЕЯ-интерфейсов прикладных компьютерных систем;

- разработке широко применимого структурированного алгоритма семантико-синтаксического анализа предложений (высказываний, вопросов, команд) из представляющих практический интерес подъязыков русского языка.

Результаты диссертации могут быть использованы в работе организаций, занимающихся проектированием лингвистических процессоров, языков представления знаний в онтологиях (в частности, в онтологиях, предназначенных для реализации информационных образовательных технологий), электронных библиотек, семантических сетевых языков, а также созданием информационного обеспечения многоагентных систем, в том числе в области электронной коммерции. Реализация результатов. Полученные в диссертации результаты нашли применение в проектировании информационного и программного обеспечения прикладных компьютерных систем, а также в учебном процессе.

Аппарат стандартных К-языков (СК-языков) был применен при разработке информационного обеспечения Машинного фонда русского языка в Институте русского языка РАН для создания широко применимого языка построения семантических представлений фраз и дискурсов.

Аппарат СК-языков, формальная модель лингвистической базы данных (ЛБД), новый метод преобразования "ЕЯ-текст Семантическое представление текста" и ряд базовых процедур, входящих в состав структурированного алгоритма семантико-

синтаксического анализа ЕЯ-текстов, были использованы для разработки информационного обеспечения (языки для построения семантических представлений текстов, лингвистические базы данных) и программного обеспечения лингвистических процессоров следующих прикладных компьютерных систем:

- экспертной системы технической диагностики и интеллектуальной базы данных автоматизированного склада в исследованиях по созданию гибких производственных систем механообработки, выполнявшихся в МИЭМ в соответствии с Комплексно-целевой программой "ЛОТОС";

- интеллектуальной базы данных, предназначенной для подбора вин и составления ресторанной винной карты в ходе взаимодействия конечного пользователя с Web-сайтом Российской ассоциации сомелье (РАС) и Web-сайтом Интернет-магазина, разработанного при поддержке РАС и размещенного на информационном портале МАГВИНА;

- интеллектуальной консультационной системы, предназначенной для освоения прикладных компьютерных программ и разрабатываемой в ООО "ПРО-ИНВЕСТ-ИТ" (Москва).

Указанные применения подтверждены актами внедрения, приведенными в Приложении 2 к данной диссертационной работе.

На основе научных результатов, полученных в диссертационной работе, были разработаны и успешно апробированы в течение ряда лет семестровые курсы лекций по новым дисциплинам: "Лингвистические информационные технологии" на факультете прикладной математики в МИЭМ, "Теоретические основы лингвистических информационных технологий" и "Проектирование лингвистических процессоров" в Российском государственном технологическом университете им. К.Э.Циолковского - "МАТИ"; с 1994 г. по 2003 г. проводились занятия сначала спецсеминара "Математическая лингвокибернетика", а затем спецсеминара "Теория текстовых баз знаний" для студентов и аспирантов механико-математического факультета МГУ им. М.В. Ломоносова; проводятся лабораторные работы в МИЭМ и МАТИ, посвященные проектированию ЕЯ-интерфейсов; защищено на "отлично" более 25 дипломных работ в МИЭМ, МАТИ и на мехмате МГУ им. М.В. Ломоносова, руководителем и консультантом которых был автор данной диссертационной работы; в МИЭМ и МАТИ осуществляется подготовка аспирантов в области теории и конструирования лингвистических информационных технологий. Апробация работы и публикации. Результаты диссертации в 1983-2004 годах многократно докладывались на всесоюзных и московских научных семинарах, всесоюзных, всероссийских и международных конференциях, симпозиумах и конгрессах, в том числе на семинаре по искусственному интеллекту в Институте проблем управления (рук. акад. Г.СПоспелов), на семинаре МИЭМ "Устойчивость и управление" (рук. акад. АН Высшей Школы В.Н.Афанасьев, проф. В.Б.Колмановский, проф. В.М.Носов), на Всероссийских семинарах общества "Знание" в Московском доме научной и технической пропаганды, на семинаре кафедры дискретной математики МГУ (рук. акад. РАН О.Б.Лупанов), на семинаре по искусственному интеллекту кафедры математической теории интеллектуальных систем МГУ (рук. акад. Академии технологических наук В.Б.Кудрявцев), на Всесоюзной конференции по информатике (Ереван, 1987), на Всесоюзной конференции по Машинному фонду русского языка (Москва, МГУ, 1987), на Международных семинарах по дискретной математике и ее применениям (Москва, механико-математический факультет МГУ, 1998,2001), на XII и XIII Международных конференциях по теоретическим проблемам кибернетики (Нижний Новгород, 1999; Казань, 2002), на 1 Международном симпозиуме ИФАК по искусственному

интеллекту (Ленинград, 1983), на Международной конференции "Алгебраические методы в обработке естественного языка" (Энсхеде, Нидерланды, 1995), на 1 Международном симпозиуме по базам данных, Веб-системам и кооперативным системам (Германия, 1999), на Международной конференции по компьютерно-ориентированной теории систем (Технический университет Вены, Австрия, 1999), на Международных симпозиумах по кооперативным системам принятия решений и сети WWW как основе для сотрудничества (Германия, 2001,2002) и по интеллектуальным программным системам для новой инфоструктуры ((Германия, 2004), на 5-й Международной конференции по гибким вопросо-ответным системам (Копенгаген, Дания, 2002), на Международной конференции Диалог'2004 по компьютерной лингвистике и интеллектуальным технологиям (Россия).

Все основные результаты диссертации опубликованы. По теме диссертации автором опубликовано 60 печатных работ (включая 26 работ на английском языке), в том числе 12 статей общим объемом 23 печ. листа в центральных отечественных научных журналах и зарубежных научных журналах на английском языке, а также в трех книгах, выпущенных издательствами Pergamon Press, Elsevier Science и Springer. В каждой из работ, выполненных в соавторстве (таких работ 9), не менее половины результатов получено автором данной диссертации. Опубликованные материалы отражают основное содержание диссертации.

Структура работы. Диссертация состоит из введения, пяти глав, списка литературы и двух приложений. Приложение 1 содержит доказательства двух лемм и базирующегося на них доказательства одного из утверждений из Главы 2. Приложение 2 включает копии 7 актов об использовании результатов диссертационной работы в научно-технических исследованиях и учебном процессе. Глава 1 разбита на 10 параграфов, глава 2 - на 12 параграфов, глава 3 - на 7 параграфов, глава 4 - на 12 параграфов, глава 5 - на 15 параграфов. Список литературы содержит 284 наименования. Общий объем работы составляет 384 страницы текста (включая 29 страниц приложений). Работа содержит 22 рисунка и 2 таблицы. Нумерация утверждений сквозная внутри каждой главы (Утверждение 1.1, Утверждение 2.2 и т.д.).

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ. Во введении к диссертации дается краткий исторический обзор, обосновывается актуальность темы диссертации и приводятся аннотации результатов, полученных в ней. Основным научным результатом, полученным в первой главе, является разработка математической модели, перечисляющей первичные единицы концептуального уровня, используемые лингвистическим процессором (ЛП), а также описывающей информацию, связанную с такими единицами и необходимую для соединения этих единиц в составные единицы, отображающие структурированные значения сколь угодно сложных ЕЯ-текстов.

На первом шаге (состоящем из серии вспомогательных шагов) определяется класс формальных объектов, называемых концептуальными базисами (к.б.). Каждый к.б. В является упорядо-ченным набором вида ((cj, С2. С3, С4), (С;,..., (ср,..., Сц)) с компонентами являющимися (главным образом) конечными или

счетными множествами символов и выделенными элементами таких множеств. В частности, - конечное множество символов, называемых сортами и

обозначающих наиболее общие рассматриваемые понятия, - выделенный сорт

"смысл собщения", - счетное множество цепочек, используемых как

"строительные блоки" для формирования модулей знаний и семантических представлений (СП) текстов, - счетное множество переменных,

подмножество множества элементы которого называются функциональными

16

символами. Компонент c¡ = Gen является таким бинарным отношением (частичным порядком) на Sí, что если пара (s,u) входит в Gen, то либо s = и, либо понятие, соответствующее сорту и, является конкретизацией понятия, соответствующего сорту s. Компонент Cj = tp является отображением из объединения множеств X и V в некоторое счетное множество Tps цепочек, называемых типами и характеризующих элементы из Xи V.

Предположим, например, что X включает элементы интс, дин.физ.об, редсовет, Д.И.Менделеев, обозначающие сорт "интеллектуальная система", сорт "динамический физический объект", понятие "редакционный совет" и конкретного человека -выдающегося химика Дмитрия Ивановича Менделеева. Будем рассматривать стрелку Î как индикатор почти всех типов, соотвествующих понятиям. Тогда значениями отображения tp для элементов редсовет , Д.И.Менделеев будут элементы f{mmc* дин.физ.об } и интс* дин.физ.об соответственно. Если же в качестве элемента множества X мы рассматриваем обозначение редакционного совета конкретного издания, то для такой информационной единицы отображение tp примет значение {интс*дин.физ.об}. Таким образом, типы помогают различать (а) объекты и понятия, характеризующие эти объекты, (б) множества и понятия, характеризующие эти множества.

Многие объекты могут быть охарактеризованы с разных точек зрения, у них есть «координаты» по разным «семантическим осям». Например, к конкретному университету можно подъехать или подойти, поэтому каждый университет имеет семантическую координату "пространственный объект". У университета есть руководитель (ректор) , поэтому университеты имеют семантическую координату "организация". Наконец, университет может разработать некоторую технологию или некоторый прибор; следовательно, представляется разумным считать, что университеты имеют семантическую координату "интеллектуальная система". Учитывая эти соображения, вводится бинарное отношение совместимости (толерантности) Tol на множестве St. Это отношение интерпретируется следующим образом: если (s,и) е Toi er Sí х Si, то найдется такая сущность х в рассматриваемой области, что с х можно связать сорт J по одной семантической оси и сорт и по другой оси, причем сорт s и сорт и не являются сравнимыми для отношения Gen.

Например, множества St и Tol могут быть определены так, что Tol включает упорядоченные пары (простр.объект, организация), (простр.объект, интел.система), (организация, интел.система), (организация, простр.объект), (интел.система, простр.объект), (интел.система, организация) .

Из рассмотренной интерпретации отношения Toi вытекают следующие свойства: (]) Vu е Sí (u,u)gTol, т.е. Toi - антирефлексивное отношение; 2) Vu,t е Sí из (u,t) е Toi следует, что (t,u) s Toi, т.е. Toi- симметричное отношение.

Сортовой системой (с. с.) будем называть произвольную упорядоченную четверку S вида (St, P, Gen, Tol), где St - конечное множество символов, Pe Sí, Gen — непустое бинарное отношение на St, являющееся частичным порядком на St (т.е. рефлексивным, транзитивным и антисимметричным), - бинарное отношение на St, являющееся антирефлексивным и симметричным, и выполняется несколько специальных условий.

Предположим, что нам необходимо описать некую предметную область, и мы решили рассматривать некоторые сущности как элементарные сущности (люди, фирмы, числа, факты, понятия и т. д.). Тогда определим составные сущности для данной области как такие сущности, которые рассматриваются как упорядоченные

17

наборы других сущностей или как множества, состоящие из каких-то других сущностей. Будем интерпретировать понятия (другими словами, концепты) как общие описания сущностей, относящихся к некоторым различаемым людьми классам сущностей. Объекты определим как такие сущности, которые не рассматриваются как понятия. Класс объектов включает, в частности, семантические представления (СП) текстов, множества СП текстов и множества понятий.

Определим для каждой с. с. S множество цепочек Tp(S), элементы которого назовем типами системы S и будем понимать их как характеристики сущностей, рассматриваемых в рассуждениях о данной области. При построении типов используются сорта из в и специальные символы, в частности, [сущн], [пон], [об], 'Т', "{' , '}', '(' > ')'> '>' (запятая). Символы [сущн], [пон], [об] будем называть соответственно типом «сущность», типом «концепт» (это наиболее общая характеристика понятий) и типом «объект» (это наиболее общая характеристика сущностей, не рассматриваемых как понятия). Символ «*» используется для соединения нескольких совместимых сортов (т.е. сравнимых для отношения толерантности ^^ при построении цепочек из множества Tp(S). Символ 'Т' будем интерпретировать как индикатор типа понятия.

Например, найдется такая сортовая система 8о , что мы сможем связать с понятием "человек" тип , с каждым конкретным

человеком - тип интс*дин.физ.об , с понятием "студенческая учебная группа" - тип Т{интс*дин.физ.об} , с каждой конкретной студенческой группой МИЭМ - тип {интс *дин. физ. об}.

Пусть ¿"-произвольная сортовая система (с.с). На множестве типов Тр(8) задается некоторое бинарное отношение, обозначаемое символом |— и называемое отношением конкретизации. На множестве сортов St отношение |- совпадает с отношением общности . Следующая система примеров демонстрирует

требования к отношению ¡-: [сущн] |-[об], [сущн] \-[пон], физ.об |-дин.физ.об, дин.физ.об |-интс * дин.физ.об, [пон] |— Тинтс, [пон] ]- Тинтс * дин.физ.об, [оЪ] физ.об, [оЪ] |-{физ.об}, [оЪ]\-{(вещ, вещ)} .

Основная идея определения отношения конкретизации заключается в следующем. Мы хотим, чтобы расстояние могло быть определено и между неподвижными физическими объектами, и между динамическими физическими объектами, и между воображаемыми динамическими физическими объектами. Все объекты таких видов являются частными случаями пространственных объектов. Учитывая это, будем использовать отношение конкретизации |— следующим образом. П у с Иъ -обозначение я-арного отношения, где п>1, и некоторое отображенйрставит в соответствие Я описание семантических ограничений на атрибуты {Оь-.Л^}, т.е.

где п>1, еТр(Б). Будем полагать, что выражение К(хь...,хп) выражает тот же смысл, что и выражение (х1,...,х„) е Я. Тогда будем считать

выражение .....х„) допустимым существуют такие щ, ...,и„еТр(8), что

Ук=1,...п ^ |-ик и хкеБ1(иО, т.е. хк входит в денотат понятия ик.

Например, так как выполняются соотношения простр. об —> вообр.простр.об, простр.об —> физ.об, физ.об дин.физ.об, то простр.об |— вообр.простр.об, простр.об |— дин.физ.об.

Доказано Утверждение 1.1. Пусть S - произвольная сортовая система. Тогда отношение конкретизации |— на множестве типов Tp(S) является частичным порядком.

В главе 2 на основании проведенного системного исследования поставлена задача построения такой модели, чтобы ее формальные средства позволяли нам следующее:

18

(Свойство 1): Строить обозначения структурированных значений (СЗ) как фраз, выражающих высказывания, так и связных повествовательных текстов; такие обозначения обычно называют семантическими представлениями (СП) ЕЯ-выражений.

(Свойство 2): Строить и различать формальными средствами обозначения СЗ повествовательных текстов, СЗ целей (выраженных неопределенными формами глаголов с зависимыми словами, таких как "окончить с отличием МГУ, подготовить и защитить кандидатскую диссертацию по биохимии") и СЗ вопросов. (Свойство 3): Строить и различать обозначения единиц, соответствующих (а) объектам, ситуациям, процессам в реальном мире и (б) понятиям, квалифицирующим (характеризующим) эти объекты, ситуации, процессы.

(Свойство 4): Строить и различать обозначения: (3.1) объектов и множеств объектов; (3.2) понятий и множеств понятий; (3.3) СП текстов и множеств СП текстов. (Свойство 5): Различать формальным образом понятия, квалифицирующие объекты, и понятия, квалифицирующие множества объектов тех же видов.

(Свойство 6): Строить составные обозначения понятий, т. е. строить формулы, отражающие поверхностно-семантическую структуру ЕЯ-выражений, подобных выражению "человек, окончивший МГУ имени М.В. Ломоносова и являющийся биологом или химиком".

(Свойство 7): Строить объяснения более общих понятий с помощью менее общих; в частности, строить цепочки вида (а~Вея(Ь)), где а обозначает некоторое понятие, которое необходимо объяснить, а Бевф) обозначает описание некоторой конкретизации известного понятия Ь.

(Свойство 8): Строить обозначения упорядоченных п-местных наборов различных сущностей, где п > 1 . (Свойство 9): Строить (9.1) формальные аналоги составных обозначений множеств ("эта группа, состоящая из 12 туристов, являющихся химиками или биологами" и т.п.), (9.2) обозначения множеств упорядоченных наборов сущностей, (9.3) обозначения множеств, состоящих из множеств, и т.д. (Свойство 10): Описывать теоретико-множественные отношения и операции над множествами.

(Свойство 11): Строить обозначения СЗ фраз, содержащих, в частности: (11.1) слова "произвольный", "некоторый", "все", "каждый", и т. д.; (11.2) выражения, полученные применением связок "и", "или" к обозначениям (11.2а) предметов, событий; (11.26) понятий; (11.2в) множеств; (11.3) выражения , где связка "не" стоит непосредственно перед обозначением предмета, события и т. д.; (11.4) косвенную речь; (11.5) причастные обороты и придаточные определительные предложения; (11.6) слова "понятие", "термин".

(Свойство 12): Строить обозначения СЗ дискурсов со ссылками на упомянутые объекты.

(Свойство 13): Указывать явно в СП дискурсов причинно-следственные и временные отношения между описываемыми ситуациями (событиями). (Свойство 14): Описывать СЗ дискурсов со ссылками на смысл фраз и более крупных фрагментов рассматриваемых текстов.

(Свойство 15): Выражать суждения о тождественности двух сущностей. (Свойство 16): Строить формальные аналоги формул логики предикатов первого порядка с кванторами существования и/или всеобщности.

(Свойство 17): Рассматривать нетрадиционные функции (и другие нетрадиционные отношения) с аргументами и/или значениями, являющимися: (17.1) множествами предметов, ситуаций (событий); (17.2) множествами понятий; (17.3) множествами СП текстов.

(Свойство 18): Строить концетуальные представления текстов как информационные объекты, отражающие не только смысл, но и значения внешних характеристик текста: авторов, дату, области применения результатов и т. д.

В главе 2 произвольному концептуальному базису (к.б.) В поставлены в соответствие три множества формул (/-формулы, t-

формулы, у-формулы). Объединение этих множеств будет обозначено через Forms (В). Множество Ls(B) названо стандартным К-языком в к.б. В. К.б. В можно определить таким образом, что цепочки языка Ls ~ Ls(B) будет удобно использовать для описания структурированных значений (другими словами, смысловых структур) ЕЯ-текстов, представления знаний о мире и представления целей интеллектуальных систем.. Другими словами, цепочки из языка Ls = Ls(B) оказывается удобным использовать для построения СП текстов на естественном языке. Формулы из первого класса, т.е. /-формулы, будут называться также К-цепочками.

Каждая формула из множества Ts(B) представима в виде d & t, Где d 6 Ls{B), t — тип из Tps(B). Формулы из множества Ys(B) являются выражениями вида a¡ & ...& а„ & d, где О], ...,а„, d е Ls(B), п имеет разные значения для разных d, и цепочка d строится из как из исходных информационных единиц (некоторые из них

могут быть немного преобразованы) однократным применением некоторого правила построения.

В данной работе предлагается оригинальная схема подхода к определению трех класов выводимых формул; эта схема заключается в следующем. Сформулированы некоторые высказывания Р[0],...,Р[10]; они интерпретируются как правила построения семантических представлений ЕЯ-текстов из элементов первичного информационного универсума Х(В\ переменных из V(B) и нескольких специальных символов при условии, что В является концептуальным базисом для рассматриваемой области.

Каждое из этих правил фактически задает некоторую операцию на множестве всевозможных наборов, компоненты которых являются СП простых или составных выражений естественного языка (ЕЯ). Можно предположить, что всего 10 операций достаточно для построения формул, отображающих смысл (или структурированные значения) сколь угодно сложных ЕЯ-текстов. Классы формул Ls, Ts, Ys для произвольного к.б. В определяются совместной индукцией правилами. P[10]. Для любого к.б. В правило Р[0] задает начальный запас формул. Определение. Обозначим через Р[0] высказывание 'Бели deX(B)uV(B), te Tp(S(B)), tp = tp(B), tp(d) = t, то de L(B), и цепочка вида d & t входит в T°(B) ". □

Пусть В — произвольный к.б., L(B) и Т°(В) — наименьшие множества, задаваемые утверждением Р[0], Lnro(B) = L(B) (обозначение "¿иг" расшифровывается как "L нумерованное"). Тогда, очевидно, Lnr0(B) = Х(В) и V(B), 7°(В) ~{b\b=*d&t, de X(B)UV(B), te Tp(S(B)), t = tp(d)}. Таким образом, в соответствии с правилом Р[0] информация о типах элементов первичного информационного универсума Х(В) и переменных из V(B) отображается в структуре формул из множества Io(В). Пример 1. Можно построить такой к.б. В с с.с. Sj , что выполняются соотношения чел, П.Сомов, НПО_"Радуга", Друзьяе Lnro(B), Персонал, Поставщики е Lnr0(B); чел &Тинтс * дин.физ.об е Т°(В), П.Сомов & интс * дт.физ.об НПО_"Радуга" & орг *простр.об*интс е 1°(В); Друзья & {(интс*дин.физ.об, {интс*дин.физ.о6})}

Персонал & {(орг, {интс*дин,физ.об})}, Поставщики &

{(орг, {орг})}е 7°(В).

Правило Р[1] предназначено для присоединения информационных единиц, соответствующих словам "некоторый", "каждый" , "какой-нибудь", "все",

"несколько", "большинство" (такие информационные единицы в данной работе называются интенсиональными кванторами) к простым или составным обозначениям понятий. Поэтому правило Р[1] позволяет строить формальные аналоги выражений "некоторый человек", "все люди", "большинство людей", "некоторый человек ростом 175 см", "все тридцатилетние люди", "все города Европы". Примерами /-формул (К-цепочек) для Р[1)%0 как последнего примененного правила, являются цепочки нек чел, все чел *(Возраст, <30, год>), все город * (Регион, Европа). Правило Р[2] предназначено для построения цепочек вида Да;, ...,а„), где f — обозначение функции, п> 1, й/, ...,а„ - /-формулы, построенные с применением каких-то правил из списка Р[0], Р[1], ..., Р[Ю]. Например, после применения правила Р[2] на последнем шаге вывода можно получить цепочки Города(Европа), Колич-элем(Города(Европа)).

Правило Р[3] позволяет строить цепочки вида - /-формулы,

полученные при помощи любых правил из Р[0], .... Р[10], и а/, ф обозначают сущности, являющиеся однородными в некотором смысле. Примеры К-цепочек для Р[3] как последнего примененного правила: (yi = нек город * (Название, 'Саратов')), (Директор(АО_"Салют") = П.Сомов).

Правило Р[4] позволяет строить К-цепочки вида Hfli, ...,а„), где г - п-арное отношение, л 1> 1, ûj, ...,а„ - К-цепочки, полученные при помощи некоторых правил из Р[0], ..., Р[10] . Примеры К-цепочек для Р[4] : Принадлеж(Намюр, Города(Белъгия)), Подмнож(Города(Бельгия), Города(Европа)).

Правило Р[5] предназначено для построения К-цепочек вида d : v, где d — К-цепочка, не включающая v, v - переменная, и выполнены некоторые условия. При помощи правила Р[5] можно помечать переменными в СП текстов на естественном языке: а) описания различных сущностей, встречающихся в тексте (физических объектов, событий, понятий и др.), б) семантические представления предложений или более крупных фрагментов текста, на которые имеется ссылка в любой части текста. Примерами К-цепочек для правила Р[5], примененного на последнем шаге вывода, являются выражения все чел : 21, Меныие(Возраст(П. Сомов), <30, год>) : PL Это правило дает возможность создавать СП текстов таким образом, что они отражают референтную структуру текста на ЕЯ.

Правило Р[б] позволяет строить К-цепочки вида —¡d, где d - К-цепочка, удовлетворяющая ряду условий. Примеры К-цепочек для Р[б] : -биолог, -Лринадлеж(Бонн, Города(Белъгия)). Здесь -л обозначает связку "не".

При помощи правила Р[7] можно строить К-цепочки вида (б; Л ...Л а„) или (Я/ v - К-цепочки, обозначающие однородные в некотором смысле сущности. В частности, ai,...,a„ могут быть СП высказываний, описаниями физических объектов, описаниями множеств, состоящих из объектов одной природы, описаниями понятий. Следующие цепочки являются примерами К-цепочек (или /формул) для Р[7] : (Финляндия v Норвегия v Швеция), (Принадлеж((Намюр л Рент), Города(Бельгия)) л -Лринадлеж(Бонн, Города( (Финляндия v Норвегия v Швеция)))).

Назначение правила Р[8] состоит в том, что оно позволяет строить, в частности, К-цепочки вида с *{ri,bj), (Гц,Ьл) , где с - информационная единица из первичного универсума^ обозначающая понятие, для г= 1, п, Г|- функция одного аргумента или бинарное отношение, обозначает возможное значение для объектов, характеризующихся понятием с. Например, если выбрать соответствующим образом первичные информационные единицы, то после применения на последнем шаге вывода правила Р[8] можно получить К-цепочки

чел *(Имя, 'Петр')(Фамилия, 'Сомов'), поворот * (Направление, левое).

21

Правило Р[9] дает возможность строить, в частности, K-цепочки вида Vv(,des)D и 3v(des)D, где V - квантор всеобщности, 3 - квантор существования, des обозначает понятие ("человек", "город", "целое число" и др.) или составное понятие ("целое число, большее 200" и др.). D можно интерпретировать как СП высказывания с переменной v о любой сущности, характеризуемой понятием des. Примеры К-цепочек для Р[9] как правила, примененного на заключительном шаге построения формулы:

Зу(страна * (Регион, Европа)) Больше (Колич(Города(у)), 15).

Правило Р[10] позволяет строить, в частности, К-цепочки вида <ai,...,an>, где п >

1,Д;.....а„- К-цепочки. Цепочки, получаемые с использованием правила Р[10] на

последнем шаге вывода, интерпретируются как обозначения л-местных наборов. Компонентами такого набора могут быть не только обозначения чисел, объектов, но и семантические представления выражений, множеств, понятий и др. Используя правила PflOJ и Р[4], можно построить цепочку Учиться!(<Агент1, нек чел * (Имя, Петр)>, <Учеб.заведение, МГУ>,

<Начал. момент, 2001 >), где Агент!, Учеб.заведение, Начал, момент -обозначения тематических ролей, т.е. обозначения отношений между значением глагола "учиться" и значениями зависящих от него в предложениях групп слов.

Рассмотрим более детально предлагаемую оригинальную схему подхода к определению трех классов выводимых формул.

Определение. Если В - произвольный концептуальный базис, то пусть

(а)D(B)=X(B)W(B)u{Y, '(', У,':','*'. ■<',•>'},

(б) Ds(B) = D(B) и {'&'}, (в) D+(B) и Ds*(B) — множества всех непустых конечных последовательностей элементов из D(B) и Ds(B) соответственно. D

Если 1 < i < 10, то для любого к.б. В и для k = l,...,i утверждения P[0],...,P[i] определяют совместной индукцией некоторые множества формул Lnr,(B)<zD+(B), f(B), Тпг,'(В),..., Tnriß), Ynr,1 (В),..., Ynr,!(B ) с Ds+(B). Множество Lnr,(B) рассматривается как главный подкласс формул, порождаемых правилами P[0],...,P[i].

Формулы из этого множества предназначены для описания содержания (смысловых структур) ЕЯ-текстов.

Утверждение 2.1. Если B-произвольный к.б., то (а) множество Lnro (В) не является пустым; (б) если 1< i < 10 , то Ьпги(В) с Litt; (В).

Утверждение 2.2. Если В - к.б., то множества Ls(B), Ts(B), Ys(B) не являются пустыми.

Утверждение 2.3. Если В - произвольный к.б., то: (а) Если х е Ts(B), то х - цепочка вида а & t, где а е Ls(B), te Tp(S(B)), и такое представление, зависящее от х , единственно для каждой цепочки х. (б) Если у е Ys(B), то найдутся такое п>1 и такие цепочки а]( а2,..., а„, ß е Ls(B), что у - цепочка вида ai & а2 & ... & сц & ß; кроме того, такое представление зависящее от у, единственно для любого у. Утверждение 2.4. Пусть В - к.б., d е Х(В) u V(B). Тогда не найдутся такие k, п, где 15 к< 10, п>1, итакие oi, а2,..., an е Ls(B),что cii & а2&... & а„&d е Упгюк(В). Интерпретация. Смысл утверждения в том, что для каждого элемента d, входящего в первичный информационный универсум Х(В) или являющегося переменной из V(B), нельзя получить этот элемент d с помощью каких-либо операций, задаваемых пюавилами Pill -РГ101.

Утверждение 2.5. Пусть В - произвольный к.б., г е Ls(B) \ (Х(В) u V(B)). Тогда существует один и только один такой набор (k, n, yf, у2,..., у„), где Ii к й 10, n > 1, УиУ2.....Уп е Ls(B), что у, & у2 &... & у„ & z б Упг[0к(В).

Интерпретация: Если 1-формули z не входит в Х(В) U V(B), то тогда найдутся единственное правило Р[к], где Iá ká 10, и единственный такой набор 1-формул yi, У2, ... , Уп, что цепочка z построена из "блоков" yj, уг,... , у„ применением ровно один раз правила Р[к].

Доказательства Утверждения 2.5 и двух лемм, на которых оно базируется, изложены в Приложении 1 к данной диссертационной работе.

Глава 3 посвящена анализу ряда возможных применений аппарата стандартных К-языков (СК-языков) к проектированию прикладных интеллектуальных систем, в частности, многоагентных систем. В параграфе 3.1 показано, что аппарат СК-языков предоставляет широкий спектр выразительных механизмов, необходимых для построения семантических представлений (СП) словосочетаний, предложений и дискурсов из технических текстов. Поэтому аппарат СК-языков целесообразно применять в качестве базового теоретического инструмента автоматизированной разработки документации сложных технических систем (в частности, летательных, надводных и подводных) и анализа такой документации на смысловую полноту и непротиворечивость.

На основании анализа выразительных возможностей языка UNL ( Universal Networking Language, универсальный сетевой язык) проведена аналогия между исследованиями по разработке семантического языка для сети World Wide Web (семантического сетевого языка), одним из вариантов которого является язык UNL, и исследованиями по разработке языков формирования Web-документов. Сделан вывод о том, что подобно осуществляемому с конца 1990-х годов переходу от языка разметки гипертекстов HTML к новым, семантически-структурированным средствам представления информации в сети Web, в области разработки семантического сетевого языка (ССЯ) потребности практики должны в ближайшие годы привести к разработке ССЯ нового поколения по сравнению с языком UNL. Обоснована перспективность использования аппарата СК-языков для разработки ССЯ нового поколения с выразительными возможностями, значительно превышающими возможности языка UNL.

Пример. Рассмотрим определение Tl= "A flock (английский язык) - это большое количество птиц или млекопитающих (например, овец или коз), собирающихся вместе с определенной целью, такой, как питание, миграция или оборона". Тогда определение Т1 может иметь следующее К-представление Exprl:

Определение! (flock, англ-яз, динамич-группа * (Кач-состав, (nmuifa V млекопитающее * (Примеры, (овца к коза)))), S1, (Оценка(Колич-элем(81), большое) л Цель-формирования (S1, нек намерение * (Примеры, (питание умиграция vоборона))))). Анализ этой формулы позволяет сделать вывод о том, что при построении СП ЕЯ-текстов удобно использовать: (1) обозначение 5-арного отношения Определение 1, (2) составные обозначения понятий (в данном примере использованы выражения млекопитающее * (Примеры, (овца v коза)) и динамич-группа * (Кач-состав, (птица V млекопитающее * (Примеры, (овца v коза)))), (3) имена функций, аргументами и/или значениями которых могут быть множества (в примере использовано имя одноместной функции Колич-элем , значением которой является количество элементов множества), (4) составные обозначения намерений, целей (в примере - выражение нек намерение * (Примеры, (питание умиграция v оборона)) ).

Структура построенного К-представления Exprl в значительной мере отражает структуру исходного определения Т1. Между тем, попытка представить содержание этого определения на языке UNL, т.е. с помощью только обозначений бинарных

отношений, привела бы к полному разрушению связи между структурой исходного определения Т1 и структурой иКЬ-представления данного определения. Пример. Пусть Т2 - относящийся к биологии и медицине дискурс "Все гранулоциты являются полиморфонуклеарными. Это означает, что их ядра многодольны". Тогда дискурсу Т2 можно поставить в соответствие следующее К-представление Ехрг2: (Свойство (произвольн гранулоцит. х!, полиморфонуклеарный) • Р1 л Пояснение (Р1, Следует-из (Ситуация (е1, обладание1* (Агент!, х!)(Объект1, нек ядро ■ х2)), Свойство (х2, многодольный)))) .

Ключевую роль в построении К-представления Ехрг2 сыграло правило Р[5], позволившее ввести метку xl для обозначения произвольного гранулоцита, метку х2 для обозначения ядра клетки и метку Р1 для обозначения семантического представления первого предложения из дискурса Т2. Метка Р1 позволяет в структуре СП текста Т2 эксплицировать ссылку на смысл первого предложения текста, даваемую сочетанием "Это означает".

Язык иКЬ не включает средств представления ссылок на смысл фраз и более крупных фрагментов дискурса. Между тем, последний пример содержит один из наиболее коротких дискурсов такого рода. Учебники в различных областях знаний изобилуют значительно более сложными дискурсами со ссылками на смысл фраз и более крупных фрагментов.

Анализ показывает, что выразительные механизмы языка ЦКЬ нетрудно аппроксимировать средствами СК-языков, поскольку правило Р[4] позволяет использовать бинарные реляционные символы. В то же время, разработка ССЯ нового поколения на основе определения класса СК-языков, в частности, позволит: (1) строить не только СП предложений, но и СП сложных связных текстов за счет средств представления ссылок на ранее упомянутые объекты и на смысл фраз и более крупных фрагментов текстов; (2) формировать составные обозначения множеств, понятий, целей интеллектуальных систем и назначений объектов; (3) соединять с помощью логических связок "и" , "или" не только обозначения высказываний, но и обозначения понятий, объектов, множеств объектов; (4) отображать смысловую сруктуру фраз со словами "понятие", "термин"; (5) рассматривать нетрадиционные функции, аргументами и/или значениями которых могут быть множества объектов, множества понятий, СП текстов, множества СП текстов.

Показано, что аппарат СК-языков расширяет возможности проектирования языков представления знаний о мире (в частности, терминологических языков представления знаний) и построения онтологии предметных областей и по сравнению с известными подходами.

Обоснована целесообразность использования аппарата СК-языков в качестве средства построения СП словосочетаний, предложений и дискурсов из текстовых полей электронных документов при разработке Интернет-систем нового поколения, сочетающих в себе черты информационно-поисковых (тематический поиск) и вопросо-ответных систем.

Обоснована возможность использования аппарата СК-языков в качестве широко применимого теоретического аппарата проектирования языков представления содержания посланий компьютерных интеллектуальных агентов (КИА) в многоагентных системах, рассматриваемых в мире как ключевая технология, в частности, для реализации электронной коммерции.

Показаны широкие возможности использования аппарата СК-языков для построения протоколов коммерческих переговоров, осуществляемых КИА, и для формирования контрактов, заключаемых КИА в ходе таких переговоров.

В главе 4 разработан способ унификации требований к СК-языкам с целью использования их для построения СП текстов из представляющих практический интерес подъязыков русского языка. Такие языки могут включать вопросы к базам данных и базам знаний, команды интеллектуальным автономным роботам, а также сообщения, вводимые в базу данных. С этой целью введено понятие размеченного концептуального базиса. Сущность этого понятия заключается во введении ряда обозначений для первичных единиц концептуального уровня и формальном описании свойств таких единиц с целью их единообразного использования при построении СП ЕЯ-текстов в разных предметных областях, в том числе при построении СП вопросов, команд, составных описаний множеств.

Предложено формальное понятие морфологического базиса Р-типа (русскоязычного типа), дающее оригинальную математическую интерпретацию морфологической системы русского языка. Преимуществом интерпретации является ее высокий уровень общности, позволяющий рассматривать морфологический анализ слов языка в качестве составной части семантико-синтаксического анализа текстов без углубления в детали морфологического анализа.

Каждый лингвистический базис является упорядоченным набором, состоящим из некоторого размеченного концептуального базиса, текстообразующей системы (упорядоченного набора, первым компонентом которого является некоторый морфологический базис Р-типа) и некоторых формальных объектов (конечных множеств, состоящих из упорядоченных наборов), называемых лексико-семантическим словарем, словарем глагольно-предложных семантико-синтаксических фреймов, словарем предложных семантико-синтаксических фреймов и системой ролевых вопросительных словосочетаний.

Лингвистические базы данных (ЛБД), структура которых отображается построенной моделью, позволяют устанавливать возможные смысловые отношения, в частности, в сочетаниях «Глагол + Предлог + Существительное», «Глагол + Существительное», «Существительное 1 + Предлог + Существительное2», «Число + Существительное», «Прилагательное + Существительное», «Существительное 1 + Существительное2», «Причастие + Существительное», «Причастие + Предлог + Существительное», «Вопросительно-относительное местоимение или местоименное наречие + Глагол», «Предлог + Вопросительно-относительное местоимение или местоименное наречие + Глагол».

Предложен новый метод преобразования ЕЯ-текста (в частности, запроса, сообщения или команды) в семантическое представление (СП) текста. Эта метод предназначен для проектирования диалоговых систем и включает следующие три этапа преобразования:

Преобразование!: Компонентно-морфологический анализ входного текста.

По ЕЯ-тексту Т строится одно или несколько компонентно-морфологических представлений (КМП) текста Т, т.е. один или несколько наборов вида (Иш, Ис), где Иш и Ис - это двумерные массивы, называемые морфологическим и классифицирующим представлениями текста. Первый массив Иш предназначен для хранения базовых форм лексических единиц (лексем) и наборов значений морфологических признаков, связанных с лексическими единицами из входного текста. Первый столбец массива Ие предназначен для хранения элементарных значащих единиц из входного текста (возможно, состоящих из нескольких слов, как в случае выражения «был отправлен»). Второй столбец массива Ис хранит ссылки на строки массива Иш.

В большинстве случаев отдельным фразам из входного текста будет соответствовать единственное КМП. Если же либо входной текст Т неоднозначно

разбивается на элементарные значащие единицы текста, либо неоднозначно определяется часть речи какой-либо единицы текста, то задаются уточнящие вопросы пользователю диалоговой системы, и неоднозначности снимаются после обработки ответов пользователя на эти вопросы.

Преобразование2: Построение матричного семантяко-синтаксического представления (МССП) текста.

МССП ЕЯ-текста Т - это новая структура данных, предлагаемая в данной работе в качестве промежуточной формы представления результатов семантико-синтаксического анализа ЕЯ-текстов и являющаяся строково-числовой матрицей Matr с индексами столбцов locunit, rival, prep, posdir, reldir, mark, qt, nattr, contr. МССП позволяет по информации о возможных видах коротких сочетаний слов найти смысловые отношения между элементами предложения Т, а также указать одно из нескольких возможных значений каждой лексической единицы.

Количество строк матрицы Matr равно nt - количеству количество строк в классифицирующем представлении Rc , т.е. количеству выделенных элементарных значащих единиц текста.

В столбце locunit (location of unit, место единицы) указывается наименьший номер строки массива Arls, которая соответствует лексической единице с порядковым номером к, где к - это номер строки массива Rc и номер строки матрицы Matr. Массив Arls представляет все наборы из лексико-семантического словаря (л.с.с.) Lsdic, которые содержат информацию о лексических единицах из входного текста. Массив Arls назван проекцией л.с.с. Lsdic на входной текст Т. Можно сказать, что значение поля locunit для k-той единицы текста является координатой входа по этой единице в массив Arls.

Столбец nval (number of values, количество значений) в начальный момент построения Matr указывает количество всех строк из Arls, соответствующих к-й лексической единице, где к - номер строки Rc и Matr. После завершения построения Matr в столбце nval на пересечении с каждой строкой, соответствующей лексической единице, должно находиться значение 1, поскольку для каждой лексической единицы было найдено одно из нескольких возможных значений.

Столбец prep (preposition, предлог,) для каждой строки с номер к указывает предлог (возможно, пустой предлог nil), относящийся к к-й лексической единице.

Рассмотрим назначение группы столбцов posdir (posdir¡,posdir2, ...,posdir„ ), где п - константа в пределах от 1 до 10, зависящая от программной реализации. Пусть 1 < d < п . Тогда будем использовать обозначение Matr[k, posdir, d] для элемента, расположенного на пересечении строки к и столбца из группы posdir с порядковым номером d в данной группе.

Если 1£ k< nt, 1 < d < и, то Matrpc, posdir, dj = т, где т - это либо 0, либо порядковый номер d-й лексической единицы из входного текста Т, управляющей единицей с порядковым номером к. Для глаголов в главном предложении в этих столбцах стоит 0, т.к. для них нет управляющей единицы. Условимся считать, что существительное управляет стоящими перед ним прилагательными, а также относящимся к нему числом или количественным числительным (например, в сочетании "5 научных статей"). В группе столбцов reldir содержатся обозначения смысловых отношений, отраженных в группе столбцов posdir.

Столбец mark (метка) предназначен для хранения переменных, обозначающих различные сущности из входного текста (в том числе события, на которые указывают глаголы, причастия, деепричастия, отглагольные существительные). В столбце qt (quantity, количество) помещается либо 0, либо число, которое расположено в тексте перед существительным и относится к существительному.

В столбце п attr (number of attributes, количество атрибутов) указывается либо О, либо количество прилагательных, относящихся к существительному представленному в данной строке к, т.е. мы предполагаем, что Re[k,unit]-это существительное.

В столбце contr {control, управление) помещается либо 0, либо число, позволяющее установить связь между главным предложением и причастным оборотом или придаточным предложением.

Пример. Пусть В1 = «Сколько контейнеров, поступивших в пятницу из Новороссийска, были отправлены АО "Радуга"?», к — 2 - порядковый номер слова «контейнеров»; р - 4 - порядковый номер слова «поступивших». Тогда Matr[k, contr] Таким образом, если к - позиция существительного, к которому "прикреплено" причастие, то Matr[k, contr] - позиция этого причастия. Наоборот, если/? - позиция причастия, то Matr[p, contr] - позиция существительного, к которому "прикреплено" это причастие.

Пусть Ш = "Профессор Сомов работает в институте, который он закончил в 1978 году", к = 5 (позиция словоформы "институте"), m = 9 (позиция словоформы "закончил"). Тогда

Если придаточное определительное предложение соединено с главным предложением с помощью вопросительно-относительного местоимения в позиции j , то Matr[j, contr] = m, где m - позиция существительного из главного предложения, к которому прикреплено придаточное предложение. Возможность использовать столбец contr в двух противоположных смыслах обусловлена тем, что каждая строка, соответствующая лексической единице, одназначно определяет ее часть речи.

Цель преобразования заключается в том, чтобы связать с каждым словом какое-то одно из возможных нескольких значений и в том, чтобы установить смысловые отношения между различными единицами текста. Так как это делается постепенно, шаг за шагом, то матричное семантико-синтаксическое представление сначала является недоопределенным. Чтобы снять неоднозначности, могут задаваться уточняющие вопросы пользователю. Но, главным образом, используются сведения из лингвистической базы данных о допустимых способах комбинирования разных единиц текста в лингвистически правильные сочетания.

Преобразование 3: Сборка семантического представления текста, являющегося К-представлением, по его МССП Matr.

Алгоритм, преобразующий МССП Matr входного текста в некоторую формулу Semrepr e Ls(B(Cb)) для некоторого размеченного концептуального базиса СЪ и концептуального базиса В(СЬ) будем называть алгоритмом семантической сборки. В главе 4 сформулированы рекомендации по выбору формы семантического представления для разных видов входных ЕЯ-текстов.

Пример. Пусть Т1 = "Профессор Игорь Новиков преподает в Томске". Тогда Semrepr

Ситуация(е1, преподавание * (Бремя, #сейчас#)(Агент!, нек чел * (Квалиф, профессор)(Имя, 'Игорь')(Фамилия, 'Новиков') : xl)(Mecmol, нек город * (Название, 'Томск'):х2)).

Пример. Пусть Т2 = ""Доставь ящик с деталями на склад № 3.". Тогда

Semrepr = (Команда(Юператор#, #Исполнитель#, #Сейчас#, el) л Цель (el, доставка!* (Объект!, нек ящик *(Содерж1, некмнож * (Кач-состав,

Пример. Пусть ТЗ = "Какое издательство опубликовало роман «Ветры Африки»?". Тогда Зешгерг = Вопрос(х1, Ситуация(е1, опубликование * (Время, некмом * (Раньше, #сейчас#) : ¡1) (Агент2, нек издательство: х!) (ОбъектЗ, некроман! * (Название, 'Ветры Африки') :х2))) .

Пример. Пусть Т4 = "Кем выпускается препарат "Зиннат"?".

Тогда Бетгерг = Вопрос (х1, Ситуация (е1, выпуск! * (Время, #сейчас#) (Агент1,

х1)(Продукция!, нек препарат! * (Название, 'Зиннат') : х2))) .

Пример. Пусть Т5 = "Откуда и для кого поступил трехтонный алюминиевый контейнер?". Тогда

Бетгерг = Вопрос ( (х! л х2), Ситуация (е!, поступление2 * (Время, нек мом * (Раньше, #сейчас#) : XI) (Место1, х!) (Адресат, х2) (Объект!, нек контейнер * (Вес,

3/тонна)) (Материал, алюминий) : хЗ) ) ). Пример. Пусть Т6 = "Сколько человек участвовало в создании статистического сборника?". Тогда ветгерг = Вопрос(х1, ((х!= Колт( Б!)) л Кач-состав (Б!, чел) л Описание(произв чел* (Элемент, Б1) :у1, Ситуация(е1, участие1* (Время, некмом * (Раньше, #сейчас#) : П) (Агент1, у1)(Вид-деятельности, создание!* (Продукт!, нек сборник! * (Область1, статистика): х2)))))'.

Пример. Пусть Т7 = "Сколько раз Иван Михайлович Семёнов летал в Мексику?". Тогда Бетгерг = Вопрос(х1, ((х1=Колич(Б!)) л Кач-состав (Б!, сит) а

Описание (произв сит * (Элемент, Б!) : е!, Ситуация (е!, полет * (Время, нек мом * (Раньше, #сейчас#) : й) (Агент!, нек чел.* (Имя, 'Иван') (Отчество, 'Михайлович') (Фамилия, 'Семёнов'): х2)(Место2, нек страна* (Название, 'Мексика '):хЗ) ))))'.

Важным достоинством предложенного метода является то, что его изучение не требует владения обширной лингвистической терминологией - достаточно знать базовые математические понятия (множество, упорядоченный набор, «-арное отношение) и ряд понятий, предусмотренных программой средней школы по курсу русского языка.

Цель пятой главы заключается в разработке алгоритма семантико-синтаксического анализа текстов из подъязыков русского языка (РЯ), реализующего предложенный в главе 4 новый метод преобразования "ЕЯ-текст - Семантическое представление (СП) текста". При этом предложенное в предыдущей главе формальное понятие лингвистического базиса интерпретируется как описание структуры лингвистической базы данных (ЛБД), используемой алгоритмом. Рассматриваемые тексты могут выражать высказывания (сообщения), команды, специальные вопросы (т.е. вопросы с вопросительными словами), общие вопросы (т.е. вопросы с ответом «Да»/ «Нет»). Тексты могут, в частности, включать причастные обороты и придаточные определительные предложения.

В соответствии с предложенным в главе 4 новым методом преобразования "ЕЯ-текст -> СП текста" ставится задача разработки алгоритма SemSyn, являющегося композицией некоторых алгоритмов БиММа1г и Вш^еш, удовлетворяющих следующим условиям: ВшЫМа1;г - алгоритм преобразования текстов из некоторых практически интересных подъязыков русского языка в их матричные семантико-синтаксические представления (МССП); Вих^еш - алгоритм сборки семантического представления ЕЯ-текста по его МССП, причем построение СП текста базируется на методе К-представлений, а результат построения является выражением некоторого СК-языка (т.е. является К-представлением входного текста).

Отправной точкой для разработки алгоритма являлся анализ поверхностной и смысловой структуры текстов из следующих подъязыков русского языка и английского языка, представляющих практический интерес:

- вопросы и сообщения на ЕЯ к вопросо-ответной Интернет-системе нового поколения, касающиеся научных публикаций и участия специалистов в научных конференциях;

- команды и вопросы транспортно-погрузочному интеллектуальному роботу, в частности, роботу, действующему на автоматизированном складе, и роботу, действующему в аэропорту;

- вопросы и сообщения для базы данных, касающиеся выпуска, экспорта и импорта продукции различными предприятиями, фирмами;

- вопросы, с которыми оператор автоматизированного склада обращается к интеллектуальной базе данных;

- вопросы потенциальных покупателей к интеллектуальной базе данных Интернет-магазина.

Предложен новый метод формального описания предположений о структуре входных текстов лингвистического процессора на основе комбинированного использования аппарата бесконтекстных грамматик и введенного в диссертации понятия лингвистического базиса.

Разработан структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка (алгоритм SemSyn). Этот алгоритм, базирующийся на построенной в главе 4 формальной модели лингвистической базы данных (ЛБД) и на введенном понятии матричного семантико-синтаксического представления (МССП), устанавливает смысловые отношения между элементарными значащими единицами входного текста, отражая эти отношения посредством МССП, а затем строит семантическое представление (СП) текста, являющееся выражением некоторого СК-языка (К-представлением). Входные ЕЯ-тексты могут выражать высказывания (сообщения), команды, специальные вопросы (т.е. вопросы с вопросительными словами), общие вопросы (т.е. вопросы с ответом «Да»/ «Нет») и могут, в частности, включать причастные обороты и придаточные определительные предложения.

Алгоритм SemSyn позволяет устанавливать возможные смысловые отношения, в частности, в сочетаниях «Глагол + Предлог + Существительное», «Глагол + Существительное», «Существительное1 + Лредлог + Существительное2», «Число + Существительное», «Прилагательное + Существительное», «Существительное 1 + Существительное2», «Причастие + Существительное», «Причастие + Предлог + Существительное», «Вопросительно-относительное местоимение или местоименное наречие, играющее роль вопросительного слова + Глагол», «Предлог + Вопросительно-относительное местоимение + Глагол».

Вместе с результатами главы 4 алгоритм SemSyn выражает принципиально новый подход к семантико-синтаксическому анализу ЕЯ-текстов.

Чтобы продемонстрировать преимущества этого нового подхода по сравнению с подходами, отраженными в современной научной литературе, можно сравнить алгоритм SemSyn с алгоритмом семантико-синтаксического анализа ЕЯ-текстов, изложенным в монографии Дж.Ф. Люгера "Искусственный интеллект. Стратегии и методы решения сложных проблем" (с. 580 - 584, процедура Sentence). 4-е издание этой монографии было опубликовано на английском языке в 2002-м году, перевод на русский язык опубликован в 2004 г. В книге, в частности, отмечается, что 4-е издание содержит обновленный материал по вопросам обработки ЕЯ.

Процедура Sentence отражает основные характерные черты доминирующего как в отечественной, так и зарубежной научной литературе подхода к описанию алгоритмов семантико-синтаксического анализа ЕЯ-текстов. Этими характерными чертами являются отсутствие модели лингвистической базы данных (заменяемое отдельными неформальными примерами используемых данных), отсутствие формального или достаточно четкого неформального описания структуры входных текстов и, как следствие, отсутствие в публикациях реальных алгоритмов семантико-синтаксического анализа (ССА) текстов или даже подробных методов выполнения ССА.

По существу, текст с названием Процедура Sentence, приведенный в монографии Дж.Ф. Люгера, является не алгоритмом, а лишь пожеланием разработать такой алгоритм. Разные специалисты в области компьютерной обработки ЕЯ разработают по этому пожеланию разные алгоритмы. Это относится не только к приведенному в главе 5 фрагменту из монографии Дж.Ф. Люгера, но и к подавляющему большинству публикаций, посвященных семантико-синтаксическому анализу ЕЯ-текстов.

Результаты данной диссертационной работы, изложенные в главах 4 и 5, дают не только продвижение вперед, но и качественный скачок в области разработки формальных средств и методов проектирования алгоритмов ССА ЕЯ-текстов. Разработчики ЛП впервые получили широко применимый формальный аппарат для описания структуры данных, с которыми работает алгоритм ССА, а также детальный метод описания алгоритмов ССА и оригинальный алгоритм ССА, базирующийся на формальной модели ЛБД.

Существенным преимуществом разработанного алгоритма SemSyn является явный учет многозначности слов, что чрезвычайно важно для приложений.

Анализ построенного алгоритма SemSyn показывает работоспособность предложенного в главе 4 нового метода выполнения преобразования "ЕЯ-текст СП текста". Важная особенность этого метода и алгоритма SemSyn заключается в том, что они не предусматривают использования синтаксического уровня представления (как результата выполнения синтаксического анализа) текста. Разработка

алгоритма SemSyn показала, что такие традиционные понятия синтаксиса, как, например, подлежащее и дополнение, являются избыточными для компьютерной обработки ЕЯ-текста: семантическое представление текста может быть построено без опоры на эти понятия.

В этой связи можно отметить, что с учетом характера используемых данных из ЛБД и принципов применения этих данных для построения СП ЕЯ-текста без выполнения синтаксического анализа текста центральные идеи алгоритма SemSyn имеют некоторые общие черты с идеями компьютерной семантики русского языка (КСРЯ).

Например, согласно работе В.А.Тузова, опубликованной в трудах Междун. научного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям, с. 356-363 (Тузов 2001), процесс компьютерного анализа текста делится на три части:' морфологический анализ, предварительная пословная обработка текста и собственно семантический анализ текста.

С точки зрения материалов 4-й и 5-й глав данной диссертации, морфологический анализ и предварительная пословная обработка текста примерно соответствуют построению компонентно-морфологического представления текста.

Однако уровень проработанности вопросов формального описания структуры ЛБД, структуры промежуточных данных и алгоритма преобразования ЕЯ-текстов в семантические представления в 4-й и 5-й главах данной диссертации значительно выше, чем в публикациях по КСРЯ. В частности, в этих публикациях отсутствует

формальная модель ЛБД. Особенно ярко преимущества подхода к семантико-синтаксическому анализу ЕЯ-текстов, предложенного в данной диссертации, проявляются в различиях к описанию этапа семантического анализа. В работе (Тузов 2001) дается общая характеристика этого этапа как выбора конкретного морфо-семантического значения словоформы и связывания всех слов предложения в единую семантическую структуру, причем на данном этапе используется семантический словарь.

Между тем, в данной главе диссертации этой общей характеристике соответствует разработка сложного структурированного алгоритма семантико-синтаксического анализа ЕЯ-текстов, описанию которого посвящены параграфы 5.3 - 5.13.

Разработка аппарата СК-языков в главах 1, 2 и применение этого аппарата в модели ЛБД (глава 4) и в алгоритме SemSyn позволили преодолеть трудности принципиального характера, касающиеся отображения содержания команд, а также вопросов нескольких видов: с вопросительными словами "какие", "каких" и т.д., со словом "сколько", относящимся к количеству предметов, и с ответом "Да /Нет".

Алгоритм семантической сборки BuildSem, являющийся частью алгоритма SemSyn, существенно использует ряд новых выразительных возможностей, предоставляемых определением класса СК-языков.

Пример. Пусть В1 = " С какими зарубежными издательствами сотрудничает писатель Игорь Сомов?". Тогда для некоторого лингвистического базиса Lingb алгоритм SemSyn построит по вопросу В1 его К-представление (КП) в виде цепочки

Semreprl=Вопрос (S1, (Кач-состав(S1, издательство * (Вид-географич, зарубежное)) л Описание(произв издательство* (Элем, SI) :yl, Ситуация(е1, сотрудничество * (Время, #сейчас#) (Агент!, нек чел* (Профессия, писатель)(Имя, 'Игорь ')(Фамилия, 'Сомов'): х1)(Организацш1, yl)))))).

Фрагментами цепочки Semreprl являются: (а) составное обозначение понятия издательство * (Вид-географич, зарубежное) , (б) семантическая характеристика произвольного элемента множества произв издательство* (Элем, SI) : yl, (в) составное обозначение объекта нек чел* (Профессия, писатель) (Имя, Игорь)(Фамилия, 'Сомов'): xl. Правило Р[5] позволило связать метку (переменную) yl с произвольным элементом искомого множества S1 , а затем использовать только эту метку для последующих ссылок на этот элемент.

Пример. Пусть В2 = "Проходила ли в Азии международная научная конференция "COLING"?". Тогда в рамках некоторого лингвистического базиса Lingb алгоритм SemSyn построит КП вопроса В2 в виде цепочки

Semrepr2 = Вопрос (xl, (х1=Ист-знач (Ситуация (el, прохождение2* (Время, некмом * (Раньше ,#сейчас#) : й)(Событие, не! конф* (Budl, междун) (Вид2, научная) (Название, 'COLING') : х2) (Место, нек континент* (Название, 'Азия') :хЗ))))).

В выражении Semrepr2 цепочка Ист-знач интерпретируется как обозначение функции, аргументом которой является СП высказывания, а значением - логическая величина Истина или Ложь.

Таким образом, использование СК-языков для построения СП входных текстов ЛП позволило расширить возможности отображения особенностей смысловой структуры входных текстов по сравнению с другими известными подходами к построению СП ЕЯ-текстов. В частности, это относится к командам и к текстам с составными описаниями множеств.

По глубине проработки вопросов преобразования компонентно-морфологического представления текста в его СП и ясности описания предложенных решений

разработанный алгоритм не имеет аналогов как в отечественной, так и зарубежной научной литературе на английском языке.

Одной из базовых процедур алгоритма Ви1ЫМа1г (алгоритма построения матричного семантико-синтаксического представления входного текста) является алгоритм "Найти-множ-тематич-ролей" (параграф 5.7), существенно использующий в работе словарь семантико-синтаксических глагольных фреймов (параграф 4.5). Применяя терминологию статей Б.У. Балларда и Ф.Дж. Хейза, А.Г. Гауптмана, Дж.Г. Карбонелла и М. Томита, опубликованных в сборнике "Новое в зарубежной лингвистике, Вып. XXIV. Компьютерная лингвистика", можно сказать, что работа алгоритма "Найти-множ-тематич-ролей" основывается на применении семантических падежных фреймов.

Во второй из указанных статей на основе экспериментальных исследований, проведенных в Университете Карнеги-Меллон, сделан вывод о перспективности использования семантических падежных фреймов для семантико-синтаксического анализа устной речи. В этой связи можно сделать заключение о перспективности использования разработанного в данной главе алгоритма семантико-синтаксического анализа ЕЯ-текстов (алгоритма 8еш8уи) при проектировании анализаторов устной речи, т.е. при решении одной из актуальных проблем разработки лингвистических информационных технологий.

Публикации автора по теме диссертации

1. Фомичев В.А. Представление информации средствами К-исчислений: Учебное пособие // М.: Московский институт электронного машиностроения (МИЭМ), 1988.- 60 с.

2. Фомичев В.А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня // Информационные технологии. 2002. № 10. С. 16-25.

3. Фомичев ВА Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть И. Система правил для построения семантических представлений фраз и сложных связных текстов // Информационные технологии. 2002. № 11. С. 34-45.

4. Фомичев В.А.Алгебраическое описание структуры языков представления знаний в памяти интегрального робота // Автоматическое регулирование и управление (выпуск одиннадцатый) / Ред. Ю.А. Рязанов.- М.: Всесоюз. заочн. машиностр. институт, 1978. - С. 84-88.

5. Фомичев В.А.Элементы модели смысловой интерпретации управляющих воздействий в системах с текстовым управлением // Приборы и установки для научных исследований. - М.: Всесоюз. заочн. машиностр. институт, 1978. - С. 48-51.

6. Ф омичев В А. Элементы подхода к математическому проектированию лингвистических процессоров на основе модельных грамматик // Математическое обеспечение и программирование для вычислительных и управляющих систем, Вып. 1.- М.: Московский институт электронного машиностроения (МИЭМ), 1979.- С. 219-227.

7. Фомичев В.А. Некоторые принципы математического описания подмножеств естественного языка // Доклады 1 и 2 научно-технических конференций молодых специалистов.

Информационные процессы и их автоматизация / Под ред. А. К. Айламазяна. - М.: ВНТИЦентр, 1980. - С. 125-136.

8. Фомичев В.А.К теории логико-алгебраического моделирования механизмов речеобразования смыслового уровня. I. Постановка задачи и идея подхода к ее решению.-М., 1981.-85 с- Деп. в ВИНИТИ ГКНТ и АН СССР 27.10.81, № 4939 - 81 Деп. - РЖ "Математика",1982, № 2, реферат 2В 1386 ДЕП.

9. Фомичев В.А.О разработке и применении теории логико-алгебраического моделирования ряда естественно-языковых механизмов текстообразования смыслового уровня // IX Всесоюзный симпозиум по кибернетике (Тезисы симпозиума. Сухуми. 10 - 15 ноября 1981 г.)- Том 1. Представление знаний.- М., Науч. Совет по комплексной проблеме "Кибернетика" при Президиуме АН СССР, 1981.- С. 186-188.

10. Фомичев В.А. Формальные системы для моделирования человеко-машинного взаимодействия на естественном языке// Международный симпозиум по искусственному интеллекту ИФАК, Том I. - Ленинград, АН СССР, 1983.- С. 223-243. Одновременно этот доклад опубликован на английском языке: Fomitc hov, V.A. Formal systems for natural language man-machine interaction modelling// International Symposium on Artificial Intelligence IFAC (Intern. Federation of Automatic Control), V.I.-Leningrad, Ac. Sc. USSR, 1983.

11. Фомичев В. А. Математическая модель лингвистического процессора и её применение к проектированию обучающих комплексов// Автом. регулирование и управление. Матем. моделирование нестационарных процессов САУ/ Под ред. Ю.А. Рязанова.- М.: Всес. заоч. машиностр. ин-т, 1986. С. 110-114.

12. Фомичев В.А. О синтезе формальных спецификаций задач в диалоговой системе ТЕМП-1 //Матем. обеспечение и программирование для вычислит, и управляющих систем /Под ред. В.Н.Маркова. -М.: МИЭМ, 1986. С. 10-13.

13. Фомичев В.А. Аппарат К-исчислений и К-языков как инструмент исследования ряда ключевых вопросов теории вычислительных систем 5-го поколения // ИНФОРМАТИКА-87. 2 Всес. конф. по актуальным проблемам информатики и выч. техники. Тезисы докладов. Ереван, 20-22 окт. 1987.- Ереван, изд-во АН Армянской ССР, 1987.- С. 182-183.

14. Фомичев В.А. Математический подход к разработке лингвистического процессора для автоматизации проектирования морских тренажеров// Всесоюз. конф. по автоматизации проектир. систем планирования и управления. Звенигород, 26-28 окт. 1987. Тезисы.докл.- М., Науч. Совет АН СССР по компл. проблеме "Кибернетика", 1987. С. 278-279.

15. Фомичев В.А. О средствах построения математической теории естественно-языкового общения // Матем. обеспечение вычислительных, информационных и управляющих систем /Под ред. В.Н.Маркова.- М., МИЭМ, 1988.- С. 21-25._

16. Фомичбв В.А. К-исчисления,

создания фонда естественно-языковых

33 J СПеиеИ»г I

5 о» т «т I

Всесоюз. конф. по созданию Машинного Фонда русского языка (Материалы конф.)-- М., Институт русского языка АН СССР, 1988.- С. 99-106.

17. Фомичбв В.А. Перспективы проектирования экспертных систем на основе аппарата К-исчислений и К-языков //Вопросы применения экспертных систем / Под ред. В.В.Соломатина и Е.В.Марковой.- Минск, НПО "Центрсистем", 1988.- С. 65-72.

18. Фомичев В.А. Язык входных спецификаций переносимого семантико-синтаксического анализатора // Автоматическое регулирование и управление. Матем. моделирование нестационарных процессов САУ/Под ред. Ю.А.Рязанова.-М., Московский ин-т приборостроения, 1988.

19.Фомичёв В.А. О теоретической базе создания фонда естественно-языковых процессоров. М., 1988.- 13 С. Статья депонирована в ВИНИТИ ГКНТ и АН СССР 28.12.1988, № 9102-В88.Библиогр. указатель ВИНИТИ "Депонированные рукописи". - 1989. - № 4. б/о 170. РЖ "Техническая кибернетика". -1989. - № 5.5.81.452ДЕП.

20.Фомичёв ВА Принципы построения модели "Текст - Знания - Смысл" для реализации новой информационной технологии в нескольких предметных областях. -М., 1988.-П с.-Деп. в ВИНИТИ АН СССР 28.12.88, № 9103-В88.

21. Фомичев В.А. Математический синтаксис концептуального уровня как инструментальное средство реализации новой информационной технологии -М, 1988.-13 с. -Деп. в ВИНИТИ ГКНТ и АН СССР 28.12.1988, № 9104-В88. -Библиогр. указатель ВИНИТИ "Депонированные рукописи". - 1989. - № 4. б/о 162.

22.Фомичёв В.А. К-языки и проблематика создания новых информационных технологий // Научно-техн., семинар "Инженерия знаний в системотехнике и экологии". 10-22 окт. 1989. Тезисы докладов.-Калининград,-Всесоюз. научно-техн. общ. радиотехники, электроники и связи им. А,С. Попова, Центр, правление и Калининрадское обл. правление, Инновационное объед. АН СССР, Научно-тех. центр информ. технологий, Калинингр. техн. ин-т рыб. пром. и хоз-ва, 1989. С. 32-33.

23.Фомичёв В. А. О возможностях структурного документирования алгоритмов средствами стандартных. К-языков.- М., 1990. -24 с.-Деп. в ВИНИТИ АН СССР 19.01.90, №416-В90.

24.Фомичёв В.А. Перспективы применения аппарата К-исчислений и К-языков к разработке лексикона программирования //Математич. и программное обеспечение вычислит., информ. и управляющих систем/ Под ред. В.Н.Афанасьева.-М., Моск. ин-т электронного машиностроения, 1990. С. 109113.

25.Фомичёв В.А. К-языки и разработка новых информационных технологий // Новые информационные технологии в системотехнике / Под ред. Л.С. Болотовой.-М.: Радио и Связь, 1990. С. 53-62.

26. Фомичев В.А. К-языки и проектирование переносимых подсистем общения экспертных систем // Экспертные системы на персональных компьютерах: Матер, семин./ Общество "Знание" РСФСР. Моск. дом науч.-техн. проп.-М.. 1990.-С. 33-37.

27. Фомичев В.А. Эффективный метод текстового управления мобильным интеллектуальным роботом // 5-е Всесоюзное совещание по

робототехническим системам. Тезисы докладов (Геленджик, октябрь 1990 г.). Ч. 1.-М.: 1990.-С. 168.

28. Фомичев В.А. Об актуальности и структуре кибернетических моделей нового вида - математических моделей систем обработки естественного языка и их подсистем.-М., МИЭМ, 1991.- 32 с- Деп. в ВИНИТИ АН СССР и ПСНТ 18.07.91, № 3066-В91 (реферат 12 П17 в РЖ "Математика", 1991, № 12).

29. Фомичев В.А. О математических моделях для проектирования анализаторов дискурсов // Научно-технические средства информатизации, автоматизации и интеллектуализации в народном хозяйстве. Материалы семинара. / Под ред. А.Е. Петрова. - М., Центральный Российский Дом Знаний, 1991.- С. 62-70.

30. Фомичев В.А., Волчков С.А. Использование промежуточного матричного представления текста для семантического анализа запросов к базам данных // Проблемы теоретической кибернетики. Тезисы докладов XII Международной конференции (Нижний Новгород, 17-22 мая 1999 г.). Часть П. - Москва, МГУ им. М.В. Ломоносова, РАН, ИПМ им. М.В. Келдыша, МО и ПО РФ, Нижегородский ГУ им. Н.И. Лобачевского, НИИ Прикладной Математики и Кибернетики при ННГУ, 1999. - С. 232.

31. Фомичев В.А. (2001). Теория К-исчислений как универсальная формальная метаграмматика для описания содержания посланий компьютерных интеллектуальных агентов // Материалы VII Международного семинара "Дискретная математика и ее приложения" (29 января - 2 февраля 2001 г.), Часть П.- Москва, МГУ им. М.В. Ломоносова, Механико-математический факультет, 2001. - С. 203 - 206.

32. Чуйков А.В., Фомичев В А. (2001). Реализация ускоренного лингвистического анализа текстов при поиске производителей продукции через Интернет // Новые информационные технологии. Материалы Четвертого научно-практического семинара.- М., МИЭМ, 2001.- С. 185 - 186.

33. Фомичев В.А. (2002а). Алгоритм преобразования матричного семантико-синтаксического представления текста в К-формулу // Проблемы теоретической кибернетики. Тезисы докладов XIII Международной конференции (Казань, 27 - 31 мая 2002 г.). Часть II. - Москва, МГУ им. М.В. Ломоносова, РАН, ИПМ им. М.В. Келдыша, МО и ПО РФ, Казанский государственный университет, 2002. - С. 181.

34.Люстиг И.В., Фомичев В.А. Принципы формального отображения семантики лексических единиц, предложений и дискурсов в интеллектуальной поисковой системе Medsearch // Компьютерная лингвистика и интеллектуальные технологии. Труды Междунар. конф. Диалог'2004 (Верхневолжский, 2-7 июня 2004 г.). С. 431-435.

35.Fomitchov, V. (1984): Formal systems for natural language man-machine interaction modelling // Artificial Intelligence. Proc. of the IF AC Symposium, Leningrad, USSR, 4-6 October 1983 / Edited by V.M. Ponomaryov (IFAC Proc. Series, 1984, No. 9). Oxford, UK; New York, etc.: Pergamon Press. - 1984. - P.203-209.

36.Fomichov, V. (1992): Mathematical models of natural-language-processing systems as cybernetic models of a new kind. Cybernetica (Belgium), XXXV (1), 63-91.

37. Fomichov, V.A. (1993a): Towards a mathematical theory of natural-language communication // Informatica. An Intern. J. of Computing and Informatics (Slovenia), 17(1), 21-34.

38. Fomichov, V.A. (1993b): K-calculuses and K-languages as powerful formal means to design intelligent systems processing medical texts // Cybernetica (Belgium), XXXVI (2), 161-182.

39.Fomichov, V.A. (1994): Integral Formal Semantics and the design of legal full-text databases // Cybernetica (Belgium), XXXVII (2), 145-177.

40.Fomichov, V.A. (1995): A variant of a Universal Metagrammar of Conceptual Structures. Algebraic systems of conceptual syntax (Invited talk). In A. Nijholt, G. Scollo, R. Steetskamp (eds.), Algebraic Methods in Language Processing. Proceedings of the Tenth Twente Workshop on Language Technology joint with First AMAST Workshop on Language Processing, University of Twente, Enschede, The Netherlands, December 6 - 8,1995,195 - 210.

41.Fomichov, V.A. (1996a): A mathematical model for describing structured items of conceptual level // Informatica (Slovenia), Vol. 20, No. 1, 5-32.

42.Fomichov, V.A. (1996b): An outline of a formal metagrammar for describing structured meanings of complicated discourses. II Intern. Conf. on Mathematical Linguistics (ICML'96), Abstracts, Tarragona, 2 - 4 de maig de 1996. Grup de Recerca en Linguistica Matematica i Enginyeria del Llenguatge (GRLMC), Report 7/96, Universitat Rovira i Virgili, 1996,31-32.

43.Fomichov, V.A. (1997a): K-calculuses and the problem of conceptual information retrieval in textual data bases. Knowledge Transfer (Volume II). Edited by A.Behrooz (Proc. of the International Conference "Knowledge Transfer - 1997 (KT97)", Symposium "Information Technology", University of London, 14-16 July 1997), London, University ofLondon, 52-58.

44.Fomichov, V.A. (1997b). Formal studies of anticipative systems as a basis of effective humanitarian and computer applications // Advances in Modelling of Anticipative Systems, Vol. II / Edited by G.E. Lasker, D. Dubois, & B. Teiling. - The International Institute, for Advanced Studies in Systems Research and Cybernetics, University ofWindsor, Canada, 1997/ P. 73-77.

45.Fomichov V.A., Fomichova O.S. (1997). From studying operations on conceptual structures to new methods of teaching languages and realizing intelligent tutoring // Learning, from Natural Principles to Artificial Methods: Abstracts. 7th Conference of the Intern. Association for the Development of Interdisciplinary Research (AIDRI97 ), University ofGeneva, 1997. P. 79-83.

46.Fomichov, V.A. (1998a). K-calculuses and matrix grammars as powerful tools for designing natural language processing systems// Abstracts of Papers, Interdisciplinary Symposium "Artificial Intelligence, Cognitive Science, and Philosophy for Social Progress" , International Congress on Cybernetics, Namur, Belgium, August 24 - 28, 1998.- Namur, International Association for Cybernetics, 1998. P.I.

47. Fomichov, V.A. (1998b). A comprehensive mathematical framework for designing agent communication languages. Proceedings of the International Conference "Information Society (IS'98)", Ljubljana, Slovenia, 6-7 October 1998, 81-84.

48.Fomichov, V.A. (1998c). Theory of Restricted K-calculuses as a Comprehensive Framework for Constructing Agent Communication Languages; Special Issue on NLP and Multi-Agent Systems, edited by V.A.Fomichov and A.P.Zeleznikar, Informatica. An International Journal of Computing and Informatics (Slovenia), Vol. 22, No. 4.- P. 451-463.

49. Fomichov, V.A. (1999a). Theory of Restricted K-calculuses as a Universal Informational Framework for Electronic Commerce // Database, Web and Cooperative Systems. Vol. 1. The Proceedings of 1999 International Symposium on Database, Web and Cooperative Systems, August 3-4, 1999, Germany -DWACOS'99 / Edited by George E. Lasker, University of Windsor and Yanchun Zhang, University of Southern Queensland. The International Institute for Advanced

Studies in Systems Research and Cybernetics, University of Windsor, Windsor, Ontario, Canada. - P. 41-46.

50.Fomichov, V.A. (1999b). A Universal Resources and Agents Framework for Electronic Commerce and Other Applications of Multi-Agent Systems; 7th International Workshop on Computer Aided Systems Theory and Technology 1999 -EUROCAST'99. September 29th - October 2nd, 1999, Vienna, Austria, Vienna University ofTechnology. Preprints (ed. P. Kopacek).-P. 99-102.

51.Fomichov, V.A. (2000a). An ontological mathematical framework for electronic commerce and semantically-structured Web // Y.Zhang, V.A.Fomichov, and A.P.Zeleznikar (Eds.), Special Issue on Database, Web, and Cooperative Systems. Informatica. An International Journal of Computing and Informatics (Slovenia, Europe), 2000, Vol. 24, No. 1. - P. 39-49.

52.Fomichov, V.A. (2001). New content languages for electronic commerce and digital libraries // Z. Binder (Ed.), Management and Control of Production and Logistics 2000 (MCPL 2000). A Proceedings volume from the 2nd IFAC/IFIP/IEEE Conference, Grenoble, France, 5 - 8 July 2000. Vol. 2, Pergamon, An Imprint of Elsevier Science, Oxford, UK., New York, Tokyo. P.503-508.

53.Fomichov, V.A. (2002a). The Method ofConstructing the Linguistic Processor ofthe Animation System AVIAROBOT // Preconference Proceedings "Collaborative Decision-Support Systems" (Focus Symposium in conjunction with the 14th International Conference on Systems Research, Informatics and Cybernetics -InterSymp-2002, July 29 - August 3, 2002, Germany). Focus Symposia Chair: Jens Pohl - CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2002. P. 91 -102.

54.Fomichov, V.A. (2002b). Theory of K-calculuses as a Powerful and Flexible Mathematical Framework for Building Ontologies and Designing Natural Language Processing Systems // Troels Andreasen, Amihai Motro, Henning Christiansen, Henrik Legind Larsen (Eds.), Flexible Query Answering Systems. 5th International Conference, FQAS 2002, Copenhagen, Denmark, October 27 - 29, 2002. Proceedings; LNAI 2522 (Lecture Notes in Artificial Intelligence, Vol. 2522), Springer: Berlin, Heidelberg, New York, Barcelona, Hong Kong, London, Milan, Paris, Tokyo. P. 183-196.

55.Fomichov, V.A. (2004). Theory of Standard K-languages as a Model of a Universal Semantic Networking Language // Preconference Proceedings "Intelligent Software Systems for the New Infostructure" (Focus Symposium in conjunction with the 16th International Conference on Systems Research, Informatics and Cybernetics -InterSymp-2004, July 29 - August 5, 2004, Germany). Focus Symposia Chair: Jens Pohl - CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2004. P. 51-61.

56.Fomichov, V.A., Akhromov Ya.V. (2003). Standard K-languages as a Powerful and Flexible Tool for Constructing Ontological Intelligent Agents // Preconference Proceedings "Collaborative Decision-Support Systems" (Focus Symposium in conjunction with the 15th International Conference on Systems Research, Informatics and Cybernetics - InterSymp-2003, July 28 - August 01, 2003, Germany). Focus Symposia Chair: Jens Pohl - CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2003. P. 167 -176.

57. Fomichov, V.A., Chuykov, A.V. (2000). An intelligent agent with linguistic skills for the Web-search of production manufacturers //InterSymp-2000, 12th International Conference on Systems Research, Informatics and Cybernetics (July 31-August 4, 2000, Germany). Preconference Proceedings "Advances in Computer-Based and Web-Based Collaborative Systems (Focus Symposia, August 1 and 2, 2000)", Focus

Symposia Chairs Jens Pohl and Thomas Fowler, IV. - Collaborative Agent Design (CAD) Research Center, Cal Poly, San Luis Obispo, CA, USA, 2000. - P. 137-147.

58.Fomichov, V.A., Kochanov, A.A. (2001). Principles of Semantic Search for Information on the Web by the Intelligent Agent LingSearch-1 // Preconference Proceedings "Advances in Computer-Based and Web-Based Collaborative Systems" (Focus Symposia in conjunction with the 13th International Conference on Systems Research, Informatics and Cybernetics - InterSymp-2001, July 31 - August 1, 2001, Germany). Focus Symposia Chairs: Jens Pohl and Thomas Fowler, IV. -Collaborative Agent Design (CAD) Research Center, Cal Poly, San Luis Obispo, CA, USA, 2001,121-131.

59.Fomichov, V.A. and Lustig, I.V. (2001). A Computer Intelligent Agent for Semantic Classification of E-mail Messages // Preconference Proceedings "Advances in Computer-Based and Web-Based Collaborative Systems" (Focus Symposia in conjunction with the 13th International Conference on Systems Research, Informatics and Cybernetics - InterSymp-2001, July 31 - August 1, 2001, Germany). Focus Symposia Chairs: Jens Pohl and Thomas Fowler, IV. - Collaborative Agent Design (CAD) Research Center, Cal Poly, San Luis Obispo, CA, USA, 2001.-P. 29 - 37.

60. Fomichova O.S., Fomichov V.A. (2004). A New Approach to Designing Children-Oriented Web-sites ofArt Museums // In Cybernetics and Systems 2004, Volume II. Proceedings of the Seventeenth European Meeting on Cybernetics and Systems Research (University of Vienna, Austria, 13-16 April 2004) / Edited by Robert Trappl.- University of Vienna and Austrian Society for Cybernetic Studies, 2004. P. 757-762.

Напечатано с готового оригинал-макета

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано к печати 19.11.2004 г. Формат 60x90 1/16. Усл печ л. 2,4. Тираж 120 экз. Заказ 519. Тел. 939-3890,939-3891,928-1042. Тел./факс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 627 к.

»24173