автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов
Автореферат диссертации по теме "Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов"
На правах рукописи
Чубинидзе Константин Александрович
МЕТОД СИНТАКТИКО-СЕМАНТИЧЕСКИХ ШАБЛОНОВ И ЕГО ПРИМЕНЕНИЕ В ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ ИНТЕРПРЕТАЦИИ ТЕКСТОВ
Специальность 05.25.05 «Информационные системы и процессы, правовые аспекты информатики»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Москва-2006
Работа выполнена на кафедре информатизации структур государственной службы Российской академии государственной службы при Президенте Российской Федерации.
Научный руководитель: доктор технических наук,
профессор Шемакин Юрий Иванович
Официальные оппоненты: доктор технических наук, профессор
Белоногов Герольд Георгиевич
кандидат технических наук Зацман Игорь Моисеевич
Ведущая организация: Московский государственный
технический университет имени Н.Э.Баумана.
Защита состоится «,20 » де-/а1 ¿/Ц" 2006 г. в часов на заседании диссертационного совета Д 502.006.17 Российской академии государственной службы при Президенте Российской Федерации по адресу: 119606, Москва, пр-т Вернадского, д. 84, 2-й учебный корпус ауд.
Ж.
С диссертацией можно ознакомиться в библиотеке Российской академии государственной службы при Президенте Российской Федерации (119606, Москва, пр-т Вернадского, д. 84).
Автореферат разослан « ¿0 » Н№&'р4 2006 г.
Ученый секретарь диссертационного совета, доктор пед. наук, кандидат физ.-мат. наук, профессор ^ —— Митин А.И.
2 аоЗА
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность диссертационной работы определяется низкой полнотой и точностью компьютерной интерпретации текстов на естественном языке, а также высокой трудоемкостью настройки автоматизированных систем на предметные области интерпретации и формальные языки представления ее результатов. Существующие в настоящее время системы компьютерной интерпретации носят узкоспециализированный характер. Процессы их настройки и эксплуатации строго разделены. Настройка представляет собой длительный (до нескольких месяцев) процесс, выполняемый
* квалифицированными специалистами и тесно связана как с предметной областью, описываемой интерпретируемыми текстами, так и с форматом
* представления результатов интерпретации, который зависит от
* специфики их дальнейшей обработки.
Цель диссертационном работы: совершенствование информационной технологии компьютерной интерпретации текстов на естественном языке за счет:
в разработки метода автоматизированного формирования синтактико-семантических шаблонов в процессе работы оператора, выполняющего интерпретацию текстов;
• разработки алгоритмов применения синтактико-семантических шаблонов в информационной технологии компьютерной интерпретации.
( Задами научных исследований:
1) на основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном
I языке, разработать методы и алгоритмы автоматизированного
формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;
2) провести экспериментальную проверку разработанных методов и алгоритмов на макете системы автоматизированной интерпретации текстов;
РОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА С.-Петербург ,,
оэ 200
3) на основе анализа результатов опытной эксплуатации макета определить эффективность и область применения метода синтактйко-семантических шаблонов, определить направления его совершенствования.
Объект исследования: информационная технология интерпретации текстов на естественном языке.
Предмет исследования: автоматизированная интерпретация текстов методом синтактико-семантических шаблонов.
Диссертационное исследование выполнено в соответствии с положениями п.п. 4, 5 и 7 областей исследований специальности 05.25.05: разработанный метод относится к методам семантического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями. Результаты исследования содержат новые подходы к формированию лингвистического обеспечения информационных систем и процессов в части его автоматизированной настройки на предметные области и формальные языки интерпретации.
Методы исследований. Результаты диссертационной работы получены на основе анализа и научного обобщения мирового опыта в разработке систем формализации текстов на естественном языке, использования научных положений теории графов, теории множеств, методов прикладной и структурной лингвистики.
Научная новизна. В диссертационной работе получены новые научные результаты:
1) в человеко-машинной технологии интерпретации текстов предложено использовать промежуточный формальный язык, инвариантный к предметной области интерпретации и к формальному языку представления ее абстрактных состояний;
2) разработаны методы формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;
3) разработаны частные методики и алгоритмы применения, формирования, верификации и оптимизации синтактико-семантических
шаблонов, предназначенных для автоматической интерпретации текстов в пределах ограниченной предметной области.
Практическая ценность работы заключается в возможности увеличения производительности человеко-машинных систем интерпретации текстов на естественном языке. Разработанные методы и алгоритмы рассчитаны на применение в составе инструментальных средств настройки систем автоматической формализации информации, содержащейся в текстах. Созданный макет системы интерпретации может использоваться при решении задач автоматизированного наполнения фактографических баз данных. , Апробация работы. Содержание отдельных разделов
диссертационной работы было использовано в НТЦ «Атлас» при выполнении НИР «Услуга». V Разработанные в диссертационной работе методы, алгоритмы и
макеты программных средств были использованы ФГУП «МНИИ «Интеграл» при исследованиях и разработках в области интеллектуальных информационных систем.
Созданный макет системы автоматизированной интерпретации внедрен в опытную эксплуатацию консалтинговой компанией IDS Scheer и используется для получения сведений об экономических показателях, содержащихся в текстах отчетных материалов в интересах Центрального банка РФ, ОАО «Лукойл», ОАО «Сургутнефтегаз», ОАО «Белгородэнерго», ОАО «Тюменьэнерго» и др. 1 Отдельные результаты исследования докладывались на
международной конференции «Развитие и защита бизнеса: практика и технологии». Работа в целом доложена на семинаре кафедры ' информатизации структур государственной службы Российской академии
государственной службы при Президенте РФ.
Публикации. Основные результаты диссертационной работы опубликованы в 4 печатных работах.
Структура диссертационной работы. Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 156 страницах, содержит 33 рисунка и список литературы из 78 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи научных исследований.
В первой главе «Компьютерная интерпретация текстов на естественном языке» рассмотрена проблема преобразования содержащейся в текстах информации на формальные языки, проведен анализ отечественных и зарубежных систем автоматической интерпретации, выявлены их основные недостатки.
Необходимость эффективного использования информации, представленной в форме текстов на естественных языках, вынуждает исследователей разрабатывать методы ее обработки с использованием средств вычислительной техники. Поскольку данные средства обеспечивают содержательную обработку информации, представленной на формальных языках, возникает необходимость однозначного перевода информации с естественного языка на формальный И необходимости их эквивалентной интерпретации. Эквивалентная интерпретация Достигается введением понятия абстрактных состояний предметной области, определенных формально и служащих однозначной интерпретацией описания информации как на естественном, так и на формальном языке. Описание состояния предметной области на естественных языках представляет собой высказывание 5.?, ..., Где 5 - знак из
алфавита языка. Формальное описание этого состояний А Може! 6Ы1Ь представлено в виде <Е,Я>, где Е~{е1,е2, ...,е„} - объекты, а /?=/?•/,/•;>, ...,>■„} - отношения между ними.
Рассмотрен процесс интерпретации в человеко-машинной системе (см. рис. 1). Работе оператора, выполняющего содержательную (семантическую) часть интерпретации /' предшествует Предварительная формальная процедура Vя, которая, в простейшем случае представляет собой визуализацию интерпретируемого текста, а в более сложных системах формальный лингвистический анализ, результат Которого I/ содержит дополнительные лингвистические характеристики выражения Следующая за работой оператора формальная процедура 5"' заключается в окончательной обработке и сохранении сформированною
оператором выражения на формальном языке. Таким образом.
\Г7и Ли
формальные работа А _V формальные
процедуры 1 оператора А процедуры
абстрактная ^ модель предметной области
пи
Человеко-машинная система
Рис. /• Человеко-машинная система интерпретации
Исключение работы оператора /' в компьютерных системах автоматической интерпретации приводит к тому, что семантическая часть данного процесса распределяется между формальными процедурами V и 5"', что, в большинстве случаев приводит к их слиянию и, следовательно, к зависимости лингвистического анализа от предметной области интерпретации и формального языка представления его результатов. Между тем, некоторые виды компьютерного лингвистического анализа позволяют частично формализовать исходное выражение на естественном языке. Поскольку человек способен воспринимать как естественные, так и формальные языки, то при достаточной полноте и точности компьютерного лингвистического анализа Р(Ь) ~ Следовательно, формальное описание абстрактного состояния предметной области, формируемое при интерпретации текста, может быть таким же как и при интерпретации результатов его компьютерного лингвистического анализа. При этом оператор человеко-машинной системы получает и генерирует выражения на формальных языках, то есть может рассматриваться как «черный ящик». Таким образом, производительность системы интерпретации может быть увеличена за счет применения формальных методов для анализа и моделирования поведения оператора.
Проведена классификация основных видов компьютерного лингвистического анализа по форме представления его результатов: выделение ключевых слов, выделение ключевых семантических понятий с определением их весовых коэффициентов, построение ассоциативной
семантической сети и построение сети синтактико-семантических отношений. Перечисленные виды неравнозначны по точности передачи информации, степени ее сжатия и удобству восприятия человеком, поэтому для решения задачи поиска и контент-анализа предпочтительным является формирование индекса семантических значений, а при выявлении фактографической информации - построение синтактико-семантических графов.
Описаны результаты анализа существующих систем автоматической формализации текстов на естественном языке, предназначенных для получения содержащейся в них фактографической информации. В эволюции сравнительно небольшого набора пригодных для промышленной эксплуатации универсальных систем выделено три направления.
Первое направление рассмотрено на примере системы РАйТиБ, представляющей собой набор многоуровневых недетерминированных преобразователей с конечных числом состояний и является классическим примером системы идентификации сущностей и событий с применением неполного грамматического анализа.
Второе направление рассмотрено на примере разработанного в ИЛИ РАН семантико-ориентированного лингвистического процессора, предназначенного для выделения семантически значимой информации и ее характеристик с последующим преобразованием в Требуемую форму, например, в таблицу базы данных. Интерпретация Исходных текстов осуществляется в соответствии с шаблонами, каждый из которых соответствует определенному семантически значимому объекту и состоит из соответствующих ему позиций в выходной структуре данных и сопоставляемых с ними компонентов естественного языка, которые могут содержаться в обрабатываемом тексте. Все виды лингвистического анализа осуществляются на уровне специального вида семантических сетей в рамках языка ДЕКЛ, что позволяет разрабатывать и реализовывать структурные грамматики, ориентированные на реальные приложения:
К последнему направлению отнесены системы, выполняющие лингвистический анализ текстов на основе общих правил грамматики и
словарей естественного языка, независимо от предметной области. В качестве примера рассмотрен набор программных библиотек ПСО. Его отличием от предыдущего направления является универсальность и сравнительно низкая стоимость внедрения. Низкие характеристики полноты и точности анализа могут быть устранены путем формирования специализированных словарей и шаблонов, обеспечивающих качественную интерпретацию в пределах определенной предметной области.
Общим недостатком рассмотренных решений является отсутствие средств автоматической настройки на предметные области и формальные языки интерпретации. Данная процедура выполняется экспертным путем, ' является длительной и трудоемкой.
Во второй главе «Применение шаблонов для формализации текстовой информации» описаны применяемые на практике методы автоматической интерпретации на основе шаблонов и существующие методы их автоматизированного формирования.
Описаны задачи идентификации сущностей и событий, а также применяемые для этого шаблоны. Большинство методов автоматизированного формирования шаблонов базируется на анализе корпуса размеченных текстов и включает создание вероятностных моделей, решающих деревьев, применение метода максимум-энтропии и анализ цепей Маркова. Решение задачи идентификации событий рассмотрено на примере шаблонов, в которых используются результаты • идентификации сущностей и поверхностного лингвистического анализа,
включающего распознавание именных и глагольных групп. Методы автоматизированного формирования шаблонов, в которых применяются результаты глубокого лингвистического анализа, рассмотрены на примере использования метаправил. Описаны методы анализа корпуса размеченных текстов на основе существующих шаблонов с целью их оптимизации при минимальном участии человека.
Приведено описание метода интерпретации на основе синтактико-семантических шаблонов и предложен метод автоматизации процесса их создания. Результат компьютерного лингвистического анализа является выражением на промежуточном формальном языке интерпретации,
который, с одной стороны пригоден для восприятия оператором системы, с другой стороны, позволяет фиксировать содержательную часть интерпретации в форме шаблона, который в дальнейшем применяется как средство формализации, и, тем самым, автоматизации содержательной части процесса интерпретации.
В основу метода положено два предположения. Первое из них заключается в том, что шаблон позволит автоматически интерпретировать аналогичные выражения на промежуточном формальном языке, даже если они были сформированы на основе иных по синтаксическому оформлению и лексическому составу предложений естественного языка. Второе предположение заключается в том, что для определенных предметных областей и типов документов на естественном языке сравнительно небольшой набор шаблонов обеспечивает достаточную полноту и точность автоматической интерпретации.
Промежуточный формальный язык интерпретации должен удовлетворять следующим требованиям:
- меньшее и конечное по сравнению с естественным языком количество способов представления одной и той же информации;
- совместимость со структурами данных, которые формируются в результате компьютерного лингвистического анализа;
- независимость от естественного языка;
- универсальность по отношению к формальным языкам описания абстрактного состояния предметной области интерпретации;
- удобство восприятия пользователем.
В качестве такого языка выбран граф синтактико-семантических отношений.
Шаблон описывает правила интерпретации предложения с определенной синтактико-семантической структурой и представляет собой набор соответствий между текстовыми единицами естественного языка и соответствующими элементами выражения на формальном языке представления результатов интерпретации.
Каждый шаблон представляет собой граф (см. рис. 2), узлами которого являются условиякоторым могут соответствовать лингвистические свойства текстовых единиц естественного языка (иг,). Некоторые узлы
могут быть обязательными, то есть соответствующие им текстовые единицы обязательно должны присутствовать в предложении на естественном языке, в противном случае шаблон ему не соответствует. Часть узлов связана с определенными элементами выражения на формальном языке (/?,), то есть семантические значения соответствующих этим узлам текстовых единиц естественного языка должны однозначно преобразовываться в эквивалентные значения соответствующих элементов выражения формального языка.
Граф синтастико-семантичоских отношений моэду текстовыми единицами предложения на естественном языке
Выражения на формальном языке описания абстрактного состояния предметной области
-»га
И «. | а. 1
я. ч
| Лингвистические свойства текстовой единицы соотватст условиям элемента шаблона
| Элемент шаблона • "привязан" к элементу выражения на формальном языке
Рис.2. Синтактико-семантичестй шаблон интерпретации
Необязательные узлы выполняют либо вспомогательную функцию «связывания» обязательных единиц в единый граф, либо описывают соответствие между элементами выражения на формальном языке и теми текстовыми единицами, которые могут отсутствовать в предложении.
Ребрами графа являются условия, которым должны соответствовать синтактико-семантические связи между текстовыми единицами предложения на естественном языке.
Таким образом, каждый шаблон (Р,) представляет собой множество условий (ЗЦ) на соответствие лингвистическим свойствам текстовых единиц (узлов графа), некоторые из которых связаны с элементами
выражения на формальном языке, и множество условий на соответствие свойствам синтактико-семантических отношений (SSL) между текстовыми единицами из множества SD в интерпретируемом предложении (ребер между узлами графа), то есть P,={SD;SSL}
Каждое условие на соответствие текстовой единице sd,={S;c;n;/fJ} состоит из:
S - множества свойств текстовой единицы из предложения, на основе которого был создан шаблон;
с - уровня обобщения sdj определяющего границы условий, которым должна удовлетворять соответствующая текстовая единица интерпретируемого предложения при его сравнении с шаблоном Р,\
п- признака необязательности присутствия текстовой единицы, соответствующей данному узлу в интерпретируемом предложении;
fi - привязки узла шаблона к элементу выражения на формальном языке. Для некоторых узлов привязка может отсутствовать.
Множество свойств текстовой единицы S определяется полнотой представления ее морфологических, синтаксических И семантических свойств в промежуточном формальном языке, описывающем результаты компьютерного лингвистического анализа, и ограничивается теми из них, которые обеспечивают необходимую полноту интерпретации при приемлемом уровне точности. Для рассматриваемого промежуточного формального языка множество свойств текстовой единицы представляет собой S={text;st;[sc];LO}, где
text- текстовая единица, в той форме, в которой она присутствует в предложении;
st- тип текстовой единицы (слово, словосочетание, знак препинания, специальная текстовая единица);
sc - семантическая категория текстовой единицы, если она определена, или код знака препинания;
LO- множество вероятных лингвистических описаний текстовой единицы, которое состоит из элементов hj={base; pd; pos}, где
base- нормальная морфологическая форма текстовой единицы text, соответствующая описанию lot\
pd- парадигма словоизменения текстовой единицы text, . .ютветствующзд описанию lo,;
pos - часть речи, к которой относится текстовая единица text, в соответствии с описанием /о,.
Значения некоторых свойств могут отсутствовать в S, так как они не всегда однозначно определяются в процессе лингвистического анализа.
Каждое условие на соответствие свойствам синтактико-семантических отношений из множества SSL представляет собой множество элементов ss/,-{sb;se;sst;sec;ssp;cl}, где
sb- ссылка на элемент множества S, который соответствует текстовой единице, выполняющей главную роль в отношении;
se- ссылка на элемент множества S, который соответствует текстовой единице, выполняющей зависимую роль в отношении;
sst - тип синтактико-семантического отношения между sb и se-, sec - семантический падеж текстовой единицы se; ssp - допустимый предлог между sb и se;
el- уровень обобщения ssl„ определяющий границы условий, которым должно удовлетворять соответствующее отношение между текстовыми единицами интерпретируемого предложения при его сравнении с шаблоном P¡.
В форме алгоритма представлена последовательность операций, применяемых в человеко-машинной технологии применения метода синтактико-семантических шаблонов (см. рис. 3). Интерпретация каждого предложения начинается с лингвистического анализа с предварительной процедурой поиска и замены текстовых единиц, которые не подчиняются правилам грамматики естественного языка и их временной замены эквивалентными и грамматически правильными единицами.
На основе результатов лингвистического анализа формируется граф синтактико-семантических отношений, вершинами которого являются текстовые единицы, обозначающие определенные семантические понятия, а ребрами - синтактико-семантические отношения между ними. Затем выполняется поиск синтактико-семантических шаблонов, условиям которых удовлетворяет граф синтактико-семантических отношений, с
помощью которых текущее предложение может быть автоматически проинтерпретировано.
Компьютерный лингвистический анализ и формироианио графа сиитактико-ссмантичоских отношений.
^ ^ отношений? 1
Применение шаблона 1 для автоматической инторпротации графа СИНТЯКТИКО'СОМаНТИЧОСКИХ отношений
Л Г
Интерпретация графа синтактико-сомантичоских отношении оператором системы, формирооанио и сохранение выражения на формальном языке
4 1
Аьгомотичоскоо формирооанио нового синтактико-сомантичоского шаблона инторпротации
Формирооанио и сохранение выражоиия па формальном языко
I
Верификация с» шабп оптимизация на юрмирооанного она; бора шаблонов
1 Г
С конец )
Рис.3. Информационная технология применения метода синтактико-семантических шаблонов
На основе каждого найденного шаблона производится автоматическое формирование выражения на формальном Языке с проверкой его корректности. Если ни один шаблон не найден, или автоматическая интерпретация была выполнена некорректно или неполно, производится визуализация графа синтактико-семантических отношений и на его основе выражение на формальном языке формируется оператором. На основе сформированного выражения автоматически создается новый шаблон интерпретации, производится его верификация и оптимизация.
В процессе интерпретации оператор имеет возможность формирования иерархии терминов формального языка. Для л ой
операции применяются таксономические тезаурусы, в которых содержатся иерархические структуры родо-видовых отношений между теми понятиями формального языка, для которых существует однозначное соответствие с текстовыми единицами естественного языка.
В третьей главе «Алгоритмы метода синтактико-семантических шаблонов» приведены алгоритмы автоматизированного формирования, верификации, оптимизации и применения синтактико-семантического шаблона.
Описаны применяемые в процессе лингвистического анализа функции программной библиотеки RCO Syntactic Engine 2.1, этапы предсинтаксической обработки, синтаксического анализа и синтаксического синтеза интерпретируемого предложения, а также типы идентифицируемых синтактико-семантических отношений и их свойства.
Работа оператора по формированию синтактико-семантических шаблонов завершается после «привязки» текстовых единиц графа синтактико-семантических отношений к элементам формируемых выражений на формальном языке с последующим определением их синтаксической структуры. После этого для каждого сформированного выражения на формальном языке формируется синтактико-семантический шаблон.
- Производится добавление в формируемый синтактико-семантический шаблон узлов графа синтактико-семантических отношений, которые «привязаны» к выражению на формальном языке и тех узлов, которые их «связывают» кратчайшими путями. Так же в шаблон добавляются присутствующие между ними отношения.
- Для каждого включенного в шаблон узла графа синтактико-семантических отношений определяется уровень обобщения, определяющий диапазон лингвистических характеристик, которому должна соответствовать текстовая единица интерпретируемого данным шаблоном предложения. При минимальном уровне все лингвистические характеристики текстовой единицы должны совпадать с характеристиками соответствующего узла графа синтактико-семантических отношений. Максимальному уровню обобщения
соответствует любая текстовая единица. Уровень обобщения определяется текущей стратегией оптимизации.
- Для лингвистических характеристик каждого отношения между узлами шаблона также определяется уровень обобщения. Максимальному уровню соответствует любое отношение между текстовыми единицами, при минимальном уровне обобщения лингвистические характеристики должны соответствовать графу синтактико-семантических отношений.
- Узлы шаблона, которые не являются главными ни в одном отношении, определяются как необязательные.
- Сформированный шаблон проверяется на точность и непротиворечивость. Проверка точности заключается в его применении к тому предложению, при интерпретации которого он был создан. Если в результате не будет автоматически сформировано выражение на формальном языке, которое создал оператор при ручной интерпретации, шаблон неточен. В большинстве случаев неточность шаблона является следствием ошибки компьютерного лингвистического анализа и приводит к необходимости пополнения лингвистических словарей системы. Проверка непротиворечивости шаблона заключается в его применении ко всем предложениям, на основе которых был сформирован используемой системой набор шаблонов интерпретации. Если созданный шаблон некорректно интерпретирует любое из них, то он требует уточнения.
Определены десять уровней обобщения лингвистических характеристик узла синтактико-семантического шаблона, распределенные по двум координатам: семантического и морфологического обобщения (см. табл. 1).
Выбор уровня обобщения зависит от условий, в которых работает алгоритм оптимизации набора синтактико-семантических шаблонов, и в основном определяется количеством отношений, которые связывают данный элемент шаблона с другими. Поскольку морфологическая форма текстовой единицы взаимосвязана с ее синтаксическими связями внутри предложения, при увеличении количества отношений предпочтительным оказывается направление морфологического обобщения, в противном случае - семантического
Уровни обобщения Семантическое обобщение
I II
Морфологическое обобщение I Эталонная текстовая единица Любая морфологическая форма эталонной текстовой единицы
II Синоним эталонной текстовой единицы в эталонной морфологической форме Любая морфологическая форма синонима эталонной текстовой единицы
III Текстовая единица из тезауруса, в котором присутствует эталонная текстовая единица в эталонной морфологической форме Любая морфологическая форма текстовой единицы из тезауруса, в котором присутствует эталонная текстовая единица
IV Семантическая категория эталонной текстовой единицы в эталонной морфологической форме Любая морфологическая форма семантической категории эталонной текстовой единицы
V Любая текстовая единица в эталонной морфологической форме Любая текстовая единица
Определены пять общих уровней обобщения лингвистических характеристик отношений между узлами синтактико-семантического шаблона (см. табл. 2).
Таблица. 2. Уровни обобщения характеристик отношений между текстовыми единицами.
Общий уровень обобщения Уровни обобщения по лингвистическим характеристикам отношения
Тип отношения Синтаксическая роль главной текстовой единицы Семантический падеж зависимой текстовой единицы Служебная текстовая единица в синтаксическом оформлении отношения
I эталонное эталонная эталонный эталонная
II эталонное эталонная эталонный любая
III любое (для предикативных отношений) эталонная любой
IV эталонное (для нспредикативных отношений) любая
V любое любая
Описаны две стратегии оптимизации набора шаблонов, определяющие уровень обобщения элементов формируемых синтактико-семантичееких шаблонов. Стратегия «от частного к общему» заключается в уменьшении начальной избыточной точности шаблонов за счет постепенного увеличения уровней обобщения и последующего объединения подобных шаблонов с определением необязательными непересекающихся узлов. Стратегия от «общего к частному» заключается в увеличении точности существующего набора шаблонов в процессе их верификации как с применением методов оценки достоверности автоматической интерпретации, так и вручную оператором системы.
Выбор текущей стратегии оптимизации набора шаблонов определяется следующими факторами:
1) спецификой интерпретируемых текстов на естественном языке, в том числе:
- разнообразием употребляемых синтаксических конструкций;
- количеством употребляемых лексических единиц и особенностями их распределения по синонимическим группам;
- частотой повторяемости синтаксических конструкций и лексических единиц в наборе предложений, которые используются при формировании набора шаблонов;
2) спецификой формального языка, моделирующего предметную область интерпретации, которая определяется:
- разнообразием правил формального языка, определяющих структуру его выражений;
- объемом словаря формального языка и тем, насколько его термины соответствуют семантическим понятиям и, соответственно, синонимическим группам естественного языка;
- наличием заранее определенного словаря формального языка, до начала интерпретации содержащего фиксированный набор терминов формального языка, которым могут соответствовать лексические единицы естественного языка;
3) размером создаваемого шаблона (чем больше шаблон, тем больше может быть уровень обобщения его элементов);
4) связанностью элементов создаваемого шаблона, которая позволяет определить необходимый уровень обобщения для свойств отношений между элементами шаблонов (чем больше отношений имеет элемент шаблона с другими, тем больший уровень обобщения можно применять к их свойствам);
5) состоянием, в котором находится процесс формирования достаточного для автоматической интерпретации набора синтактико-семантических шаблонов (см. рис. 4), который тесно взаимосвязан с процессом наполнения таксономических тезаурусов предметной области.
Стратегия "от частного к общему"
Оптимальный
набор
шаблонов
Количество проинтерпретированных предложений
Рис. 4. Достижение оптимального набора шаблонов
Большое количество перечисленных факторов, а также затруднения с их оценкой как по отдельности, так и с учетом взаимосвязей приводит к тому, что выбор стратегии оптимизации сводится к выбору той операции, которую оператор предпочитает выполнять вручную. При использовании стратегии «от частного к общему» он вынужден на этапе накопления избыточною набора шаблонов чаще выполнять интерпретацию, а на последующем этапе проверять результаты автоматического объединения шаблонов. При использовании стратегии от «общего к частному» в работе оператора будет преобладать исправление ошибок автоматической интерпретации.
Разработан алгоритм автоматической интерпретации текстов с помощью набора синтактико-семантических шаблонов. На первом этапе
производится компьютерный анализ интерпретируемого предложения с построением графа синтактико-семантических отношений. В результате цикла по набору сформированных шаблонов интерпретации определяется, соответствует ли условиям текущего шаблона какой-нибудь подграф синтактико-семантических отношений. Если это так, формируется выражение на формальном языке, синтаксическая структура которого определяется шаблоном, при этом учитывается возможность построения нескольких выражений на формальном языке с помощью одного и того же шаблона (например, если предложение содержит однородные члены). Затем производится определение семантических значений элементов выражения на формальном языке. Если текстовая единица присутствует в тезаурусе, соответствующий ей термин формального языка помещается в выражение на формальном языке. В противном случае, эксперт должен определить этот термин самостоятельно, при этом в тезаурус автоматически добавляется его синоним на естественном языке, соответствующий текстовой единице графа.
После окончания цикла по существующим шаблонам проверяется полнота интерпретации. Если ни одно выражение на формальном языке не сформировано, производится визуализация графа синтактико-семантических отношений и интерпретация выполняется оператором. После окончания интерпретации в соответствии с описанным ранее алгоритмом создается новый шаблон. Для проверки полноты интерпретации предложено два критерия:
- среди узлов графа синтактико-семантических отношений не должно быть таких, текстовые единицы которых присутствуют в таксономическом тезаурусе, но соответствующие им термины формального языка отсутствуют в сформированных выражениях;
- если из графа синтактико-семантических отношений удалить узлы, соответствующие элементам примененных для интерпретации шаблонов, в нем не должно остаться связанного подграфа, содержащего предикат и превосходящего по своему размеру минимальный шаблон. Если интерпретация выполнена неполно, производится визуализация графа синтактико-семантических отношений, при этом выделяются узлы,
соответствующие примененным шаблонам. Оператор анализирует граф и при необходимости выполняет его интерпретацию.
В четвертой главе «Макет системы автоматизированной интерпретации и результаты его опытной эксплуатации» описан созданный макет системы интерпретации методом синтактико-семантических шаблонов, который состоит из четырех хранилищ и шести функциональных модулей, четыре из которых работают в автоматическом режиме, а два с участием оператора (см. рис. 5).
Рис. 5. Макет системы интерпретации Приводится структура информационных объектов макета, к которым относятся исходные тексты на естественном языке, результаты 9
их лингвистического анализа (графы синтактико-семантических отношений), синтактико-семантические шаблоны интерпретации, таксономические тезаурусы и окончательные результаты интерпретации.
В процессе макетирования в качестве предметной области интерпретации выбрана информация о происшествиях, формальным языком описания которых (абстрактных состояний предметной области) являются таблицы реляционной базы данных, содержащих фактографические сведения. Каждое происшествие описывается временем, местом, действиями и результатами. Действия характеризуются субъектами и количеством, результаты - объектами, количественной характеристикой и единицей измерения. Данная предметная область и формальный язык являются привычными для оператора, участвующего в опытной эксплуатации.
Представлены основные функции интерфейса пользователя системы, к которым относятся:
- выбор интерпретируемого предложения;
- визуализация графа синтактико-семантических отношений и лингвистических характеристик его элементов;
- трансформация графа синтактико-семантических отношений путем объединения его смежных узлов в многословные текстовые единицы;
- формирование выражения на формальном языке путем «привязки» узлов графа синтактико-семантических отношений к полям таблиц базы данных происшествий с последующим определением класса действия или результата;
- ведение таксономических тезаурусов, а также классификаторов действий и результатов;
- точная настройка сформированного синтактико-семантического шаблона (см. рис. 6), которая в дополнение к процедурам трансформации графа и привязки его узлов к полям базы данных происшествий содержит определение обязательности узлов шаблона, а также установку уровня обобщения лингвистических характеристик его элементов.
Описаны результаты опытной эксплуатации макета системы, которая проводилась с целью оценки эффективности предлагаемого метода, а также определения области его применения и путей дальнейшего совершенствования. Из текстов оперативной сводки МВД, единой новостной ленты ИТАР ТАСС, центральной прессы и новостных программ ОРТ было отобрано по 120 предложений, описывающих событие типа «взрыв». Для каждого типа текстов формировался индивидуальный набор синтактико-семантических шаблонов и тезаурусов. В процессе работы оператора фиксировалось время начала и окончания интерпретации. Эксперимент проводился в два этапа. На первом оператор выполнял интерпретацию традиционным способом, читая предложение и заполняя базу данных вручную, в результате чего было определено время интерпретации каждого предложения. На втором этапе интерпретация выполнялась путем визуализации графа синтактико-семантических отношений, «привязки» его узлов к полям таблиц, содержащих формируемое выражение на формальном языке.
311*1
Шаблоны
Дойстоио
к Акция протеста Беспорядки Блокмрооание Голодовка Митинг
шпнаяяиимм
Шаблон« fnjMOHOH26.ot.os) ^ свойетоа гломонта шаблона Р? Обязательный гломонт ! Пришика к таблице* |(нет) к полю: Цнет) 3 Урооонь семантического обобщения. |г Урооонь морфологического обобщения:\г Отношение с злемонтом: |(нот) ^
*..............ГЗ
Исходное предложение
у здания администрации юрода черемхоео иркутской оОлэсти рз&отникос ООО Тепловик* провели КРСЭНУЦИ&ИИрОВЭКМыЛ \'»»ТИМГ ГССуй 9ЫЛЛ\ТЬ» ^ддолжеи^с. ти гю ттг<*
Рис. 6. Интерфейс настройки шаблона в макете системы, Проведено сопоставление сформированных наборов шаблонов. В процессе опытной эксплуатации было автоматически
проинтерпретировано 105 предложений и сформировано 114 шаблонов. Шесть шаблонов оказались общими для каждого типа документов. Наименьшее число уникальных шаблонов было сформировано в процессе интерпретации оперативных сводок, наибольшее - центральной прессы. Около 75% шаблонов были применены однократно, 19% дважды, 4,5% трижды и только 1,5% четырежды.
Получены данные, свидетельствующие о повышении скорости интерпретации. На первом этапе эксперимента скорость уменьшилась, поскольку оператор обучался работе с системой и расходовал время на формирование и верификацию шаблонов. На последующих этапах, по мере достижения полноты набора шаблонов, скорость, и в случае автоматической интерпретации стала равна времени верификации результатов. Средняя скорость интерпретации предложений из оперативных сводок повысилась на 25-40%. Если предположить, что впоследствии будет исключена «ручная» верификация, то время оператора будет расходоваться только на формирование, верификацию и оптимизацию синтактико-семантических шаблонов.
Достижение оптимального набора шаблонов позволяет проводить интерпретацию в автоматическом режиме. Получена зависимость увеличения числа шаблонов от количества проинтерпретированных предложений (см. рис. 7), которая свидетельствует о том, что для интерпретации оперативных сводок может оказаться достаточно двадцати шаблонов. Для прочих типов текстов аналогичный вывод сделать затруднительно, особенно для текстов новостных лент и центральной прессы.
Анализ неудач в применении синтактико-семантических шаблонов показал, что вмешательство оператора в процесс автоматической интерпретации происходило по следующим причинам: отсутствие текстовых единиц предложения в таксономических тезаурусах (59%), некорректная обработка многословных текстовых единиц модулем компьютерного лингвистического анализа (26%), необходимость «ручной» конкретизации дат и количественных показателей (12%), а также общие ошибки синтаксического анализатора (13%).
центральная пресса
37-
3 § 22
I 12
*7
2
•30
20
40 60 80 100 120
проинтерпретировано предложений
Рис. 7. Увеличение набора шаблонов в процессе опытной эксплуатации
Метод синтактико-семантических шаблонов оказался наиболее эффективным при интерпретации текстов оперативных сводок. Среди направлений его совершенствования, которые могут позволить его применение при интерпретации новостных лент выделены:
- применение предварительной обработки интерпретируемых предложений с целью идентификации и приведения к правильной грамматической форме количественных характеристик, аббревиатур и многословных наименований;
- предварительное наполнение таксономических тезаурусов и словарей многословных понятий;
- применение обобщенного формального языка результатов интерпретации, менее чувствительного к недостатку информации в интерпретируемом предложении, а также применение логико-аналитической обработки, компенсирующей этот недостаток;
- разработка необходимого набора правил и методов верификации результатов автоматической интерпретации с оценкой ее достоверности;
- применение методов разрешения анафорических ссылок на этапе предварительной обработки интерпретируемых предложений, в первую очередь для увеличения полноты интерпретации.
В заключении сформулированы основные результаты диссертационной работы:
1. Разработан метод интерпретации текстов на естественном языке, который предусматривает автоматизированное обучение системы в процессе интерактивной интерпретации предложения оператором.
2. Предложен и применен промежуточный формальный язык представления лингвистических характеристик текста - граф синтактико-семантических отношений, инвариантный к формальному языку описания предметной области интерпретации.
3. Разработаны алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в процессе эксплуатации человеко-машинной системы интерпретации текстов на естественном языке.
4. Предложены методы и алгоритмы автоматизированной верификации результатов интерпретации и оптимизации сформированного набора синтактико-семантических шаблонов.
5. Для экспериментальной проверки разработанных методов и алгоритмов создан макет программного комплекса. В результате его опытной эксплуатации определены область применения предлагаемого метода, его эффективность и пути дальнейшего совершенствования.
Основное содержание диссертации отражено в следующих печатных работах:
1. Чубинидзе К.А. Компьютерная интерпретация текстов на естественном языке на основе синтактико-семантических шаблонов. // НТИ Серия 2. Информационные процессы и системы. - 2005, № 2.
2. Чубинидзе К.А. Структурированная интерпретация сводок оперативной информации. // Межотраслевая информационная служба. -2004, вып. 3-4 (128-129).
3. Чубинидзе К.А. Структура модели событий, описываемых текстами на естественном языке. // Компьюлог. - 2004, № 3 (63).
4. Чубинидзе К.А. Использование технологии динамической классификации для интенсификации аналитической деятельности. // Информационные технологии в проектировании и производстве. - 2005, №3.
Автореферат
Диссертации на соискание ученой степени кандидата технических наук Чубинидзе Константин Александрович
Тема диссертационного исследования
Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов
Научный руководитель
Доктор технических наук, профессор Шемакин Юрий Иванович
Изготовление оригинал-макета Чубинидзе Константин Александрович
Подписано в печать Тираж экз.
Усл. п. л. -КЗ.
Российская академия государственной службы при Президенте Российской Федерации
Отпечатано ОПМТ РАГС. Заказ № ±£Г
119606 Москва, пр-т Вернадского, 84
Оглавление автор диссертации — кандидата технических наук Чубинидзе, Константин Александрович
Введение
Глава I. Компьютерная интерпретация текстов на естественном языке.
1.1. Интерпретация и формы представления ее результатов.
1.2. Существующие системы автоматической формализации текстов.
1.3. Оценка качества систем автоматической интерпретации.
Глава II. Применение шаблонов для формализации текстовой информации
2.1. Методы автоматического формирования шаблонов идентификации сущностей и событий.
2.2. Структура синтакгико-семантического шаблона интерпретации.
2.3. Человеко-машинная технология формирования и применения синтактико-семантических шаблонов.
Глава III. Алгоритмы метода синтактико-семантических шаблонов.
3.1. Формирование графа синтактико-семантических отношений.
3.2. Автоматизированное создание шаблона интерпретации.
3.3. Уровни обобщения лингвистических характеристик.
3.4. Оптимизация набора синтактико-семантических шаблонов.
3.5. Автоматизированная интерпретация предложения.
Глава IV. Макет системы автоматизированной интерпретации и результаты его опытной эксплуатации.
4.1. Формальный язык описания предметной области.
4.2. Структура информационных объектов.
4.3. Функции интерфейса пользователя.
4.4. Результаты опьпной эксплуатации и пути совершенствования метода.
Введение 2006 год, диссертация по документальной информации, Чубинидзе, Константин Александрович
Уровень развития современных коммуникационных и информационных технологий позволяет информационным центрам ведомственного и государственного уровня оперативно получать и хранить достаточно продолжительное время первичную информацию из оперативных подразделений и средств массовой информации.
Традиционно, анализ и обобщение поступающей информации выполняется частично на каждом уровне иерархической структуры ведомства, причем результаты анализа на предыдущем уровне иерархии поступают как исходные данные на следующий уровень. Такая организация работы является естественной при обработке информации специалистами, она обусловлена ограниченными возможностями отдельного человека и характеризуется затруднениями на этапе объединения результатов работы нескольких специалистов в один документ.
Современные требования по оперативности и точности принятия управленческих решений вынуждают искать альтернативные пути анализа поступающей информации. Одним из них является применение методов ее компьютерной обработки, которые имеют многие преимущества, например:
• увеличение скорости обработки информации до уровня, при котором становится возможной обработка первичной информации на любой ступени иерархической структуры ведомства;
• исключение обобщений на промежуточных ступенях иерархической структуры ведомства позволяет уменьшить искажения и потери первичной информации.
В подавляющем большинстве случаев, первичной информацией являются тексты на естественном языке, которые создаются сотрудниками ведомства и предназначены для экспертов и руководства. Данная форма представления информации является практически неприемлемой для компьютерной обработки и нуждается в соответствующем преобразовании, которое в данной работе названо интерпретацией.
Проблемная ситуация заключается в низкой полноте и точности компьютерной интерпретации текстов на естественном языке, а также в высокой трудоемкости настройки автоматизированных систем на предметные области интерпретации и формальные языки представления ее результатов. Существующие в настоящее время системы компьютерной интерпретации носят узкоспециализированный характер. Процессы их настройки и эксплуатации строго разделены. Настройка представляет собой длительный (до нескольких месяцев) процесс, выполняемый квалифицированными специалистами и тесно связана как с предметной областью, описываемой интерпретируемыми текстами, так и с форматом представления результатов интерпретации, который зависит от специфики их дальнейшей обработки.
Объект исследования - информационная технология интерпретации текстов на естественном языке.
Предмет исследования - автоматизированная интерпретация текстов методом синтактико-семантических шаблонов.
Диссертационное исследование выполнено в соответствии с положениями п.п. 4, 5 и 7 областей исследований специальности 05.25.05: разработанный метод относится к методам семантического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями. Результаты исследования содержат новые подходы к формированию лингвистического обеспечения информационных систем и процессов в части его автоматизированной настройки на предметные области и формальные языки интерпретации.
Целью работы является совершенствование информационной технологии компьютерной интерпретации текстов на естественном языке за счет:
• разработки метода автоматизированного формирования синтактико-семантических шаблонов в процессе работы оператора, выполняющего интерпретацию текстов;
• разработки алгоритмов применения синтактико-семантических шаблонов в информационной технологии компьютерной интерпретации.
Для достижения поставленной цели необходимо решить следующие задачи:
1. на основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной системе интерпретации текстов на естественном языке;
2. провести экспериментальную проверку разработанных методов и алгоритмов на макете системы автоматизированной интерпретации;
3. на основе анализа результатов опытной эксплуатации макета определить эффективность и область применения метода синтактико-семантических шаблонов, определить направления его совершенствования.
Методы исследования. Результаты диссертационной работы получены на основе анализа и научного обобщения мирового опыта в разработке систем формализации информации, содержащейся в текстах на естественном языке, использования научных положений теории графов, теории множеств, методов прикладной и структурной лингвистики.
Научная новизна исследования. В диссертационной работе получены новые научные результаты:
1. в человеко-машинной технологии интерпретации текстов предложено использовать промежуточный формальный язык, инвариантный к предметной области интерпретации и к формальному языку представления ее абстрактных состояний;
2. разработаны методы формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;
3. разработаны частные методики и алгоритмы применения, формирования, верификации и оптимизации синтактико-семантических шаблонов, предназначенных для автоматической интерпретации текстов в пределах ограниченной предметной области.
Практическая ценность работы заключается в возможности увеличения производительности человеко-машинных систем интерпретации текстов на естественном языке. Разработанные методы и алгоритмы рассчитаны на применение в составе инструментальных средств настройки систем автоматической формализации информации, содержащейся в текстах. Созданный макет системы интерпретации может использоваться при решении задач автоматизированного наполнения фактографических баз данных.
Апробация работы. Содержание отдельных разделов диссертационной работы было использовано в НТЦ «Атлас» при выполнении НИР «Услуга».
Разработанные в диссертационной работе методы, алгоритмы и макеты программных средств были использованы ФГУП «МНИИ «Интеграл» при исследованиях и разработках в области интеллектуальных информационных систем.
Созданный макет системы автоматизированной интерпретации внедрен в опытную эксплуатацию консалтинговой компанией IDS Scheer и используется для получения сведений об экономических показателях, содержащихся в текстах отчетных материалов в интересах Центрального банка РФ, ОАО
Лукойл», ОАО «Сургутнефтегаз», ОАО «Белгородэнерго», ОАО «Тюменьэнерго» и др.
Отдельные результаты исследования докладывались на международной конференции «Развитие и защита бизнеса: практика и технологии». Работа в целом доложена на семинаре кафедры информатизации структур государственной службы Российской академии государственной службы при Президенте РФ.
Публикации. Основные результаты диссертационной работы опубликованы в четырех печатных работах.
Структура диссертационной работы.
Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 156 страницах, содержит 33 рисунка и список литературы из 38 наименований.
Заключение диссертация на тему "Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов"
Заключение
В диссертационной работе получены следующие результаты:
1. Разработан метод интерпретации текстов на естественном языке, который предусматривает автоматизированное обучение системы в процессе интерактивной интерпретации предложения оператором.
2. Предложен и применен промежуточный формальный язык представления лингвистических характеристик текста - граф синтактико-семантических отношений, инвариантный к формальному языку описания предметной области интерпретации.
3. Разработаны алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в процессе эксплуатации человеко-машинной системы интерпретации текстов на естественном языке.
4. Предложены методы и алгоритмы автоматизированной верификации результатов интерпретации и оптимизации сформированного набора синтактико-семантических шаблонов.
5. Для экспериментальной проверки разработанных методов и алгоритмов создан макет программного комплекса. В результате опытной эксплуатации макета определены область применения предлагаемого метода интерпретации, его эффективность и основные пути дальнейшего совершенствования.
Библиография Чубинидзе, Константин Александрович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики
1. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции (Том 1. Синтаксический анализ). М.: Мир, 1978
2. Белоногов Г.Г., Быстрое И.И., Козачук М.В. Новоселов А.П., Хорошилов А.А. Автоматический концептуальный анализ текстов. Сб. «Научно-техническая информация», Серия 2, № 10, ВИНИТИ, 2002
3. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А., Компьютерная лингвистика и перспективные информационные технологии М.: Русский мир, 2004
4. Белоногов Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М.В., Рыжова Е.Ю., Гуськова Л.Ю., Каким быть машинному переводу в XXI веке. Сб. "Перевод: традиции и современные технологии". Изд. ВЦП, Москва, 2002
5. Большой энциклопедический словарь «Языкознание». М.: Большая российская энциклопедия, 2000
6. Виноград Т. Программа, понимающая естественный язык. М.: Мир, 1976
7. Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992
8. Горелов И.Н. Разговор с компьютером: психологический аспект проблемы. М.: Наука, 1987
9. Громов А.И., Чубинидзе К.А. Управление знаниями и семантический анализ текстов в системе Retrieval Ware компании Convera. М.: Информационные технологии в проектировании и производстве, 2005, № 3
10. Ю.Ермаков А.Е. Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара «Диалог-2002». Т.2. Прикладные проблемы. М.: Наука, 2002
11. П.Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах аналитика. Информатизация и информационная безопасностьправоохранительных органов: XI Международная научная конференция. Сборник трудов Москва, 2002
12. Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник /Под ред. Д.А. Поспелова. М.: Радио и связь, 1990
13. Калинин Ю.П., Деев В.В. и др. Распознавание ситуаций, основанное на обработке смыслов. Нетрадиционная постановка задачи. Материалы конференции "Нейрокомпьютеры и их применение" НКП-96,1996
14. Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.
15. Кобрицов Б.П., Ляшевская О.Н. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.
16. Кормалев Д. А. Автоматическое построение правил извлечения информации из текста. Труды первой международной конференции «Системный анализ и информационные технологии» Т.1. М.: КомКнига, 2005
17. Кузнецов И.П. Семантические представления. М. Наука, 1986
18. Кузнецов И.П., Шарнин М.М. Интеллектуальный редактор знаний на основе расширенных семантических сетей / Системы и средства информатики. Вып. 5 М.: Наука, 1993
19. Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. Препринт ИПМ им. М.В. Келдыша, АН СССР, № 205,1987
20. Лайонз Дж. Введение в теоретическую лингвистику. "Прогресс", Москва, 1975
21. Лезин Г.В., Мамедниязова Н.С. О представлении семантики концептуальных моделей в базах знаний. Труды международного семинара «Диалог-2000» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
22. Лезин Г.В., Тузов В.А. О представлении результатов семантико-синтаксического анализа текста концептуальными моделями данных. Труды международного семинара «Диалог-2003» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
23. Леонтьева Н.Н. Семантика связанного текста и единицы информационного анализа. НТИ, № 1,1981
24. Липинский Г.В. Russian Context Optimizer: путь к возможностям Oracle interMedia в русскоязычных базах данных. Доклад на XII конференции АПО/ROUG, 1 сентября 2000
25. Лозовский B.C. Семантические сети / Представление знаний в человеко-машинных и робототехнических системах. М.: ВИНИТИ, 1984
26. Мельчук И.А. Опыт теории лингвистических моделей "Смысл текст". -М.: Наука, 1974
27. МихайловьА.И., Черный А.И., Гиляревский Р.С. Основы информатики. -М.: Наука, 1968
28. Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС /Е.Н. Пименов //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 5.
29. Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб.: РГПУ им. А.И.Герцена, 1999
30. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: Наука, 1979
31. Попов Э.В. Искусственный интеллект: Справочник. В 3-х т. М.: Радиосвязь, 1990
32. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982
33. ПоповЭ.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987
34. Поспелов Д.А. Энциклопедия по информатике. М.: Просвещение, 1994
35. Поспелов Г.С. Некоторые вопросы реализации диалоговых систем. М.: Наука, 1980
36. Представление знаний и моделирование процесса понимания. -Сб.научных трудов / Под ред. А.С.Нариньяни. Новосибирск, СО АН СССР, 1980
37. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989
38. Свами М., Тхуласираман К. Графы, сети и алгоритмы. -М.: Мир, 1984
39. Скрытое эмоциональное содержание текстов СМИ и методы его объективной диагностики / Под ред. А.А.Леонтьева, Д.А.Леонтьева. М.: Смысл, 2004
40. Тузов В.А. Компьютерная семантика русского языка. Труды международного семинара «Диалог-2001» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.
41. Тузов В.А. Система семантико-синтаксического анализа предложений на русском языке // Информационные технологии в гуманитарных и общественных науках. СПб.:СПб ЭМИ РАН, 2002. Вып. 12.
42. Уэно X., Кояма Т., Окамото Т. И др. Представление и использование знаний / Пер. С англ.; Под ред. У.Уэно, М.Исудзука. М.: Мир, 1989
43. Филиппович Ю.Н., Филиппович А.Ю. Специальность "Компьютерная лингвистика и семиотика" // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 5 / Сост. и ред. Ю.Н.Филипповича. М.: Эликс+, 2003
44. Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А. Языковые средства диалога человека с ЭВМ; Под ред. В.Н. Четверикова М.: Высшая школа, 1990
45. Филиппович Ю.Н. Метафоры информационных технологий. С предисловием Караулова Ю.Н. М.: МГУП; 2002
46. Филиппович Ю.Н. Семантика информационных технологий: опыты словарно-тезаурусного описания: С предисл. А.А. Новикова / Ю.Н. Филиппович, А.В. Прохоров; М.: МГУП., 2002.
47. Чубинидзе К.А. Использование технологии динамической классификации для интенсификации аналитической деятельности. М.: Информационные технологии в проектировании и производстве, 2005, № 3
48. Чубинидзе К.А. Компьютерная интерпретация текстов на естественном языке на основе синтактико-семантических шаблонов. НТИ Серия 2. Информационные процессы и системы. - М.: ВИНИТИ, 2005, № 2
49. Чубинидзе К.А. Структура модели событий, описываемых текстами на естественном языке. -М.: Компьюлог, 2004, № 3 (63)
50. Чубинидзе К.А. Структурированная интерпретация сводок оперативной информации. Межотраслевая информационная служба, вып. 3-4 (128129), М.:ВИМИ, 2004
51. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М.: Школа Китайгородской, 1995
52. Шемакин Ю.И. Основы информатики и вычислительной лингвистики. -М.: МИНХ им. Г.В.Плеханова, 1983
53. Шемакин Ю.И. Семантика самоорганизующихся систем. М.: Академический проект, 2003
54. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980
55. Якушин Б.В. Слово. Понятие. Информация. М.: Молодая гвардия, 1975
56. D.Applet, J.Hobbs, J.Bear, D.Israel, M.Kameyama, M.Tyson. FASTUS: a finite-state processor for extracting information from real-world text. In Proc. 13-th International Joint Conference on Artificial Intelligence, 1993
57. A.Borthwick, J.Sterling, E.Agichtein, R.Grishman. Exploiting diverse knowledge sources via maximum entropy in named entity recognition. In Proc. 6-th Workshop on Very Large Corpora, Montreal, 1998
58. D.Bikel, S.Miller, R.Schwartz, R.Weischedel. Nymble: a high-performance learning name-finder. In Proc. 5-th Conference on Applied Natural Language Processing. Washington, DC, 1997
59. R.Schank, M.Lebowitz, L.Birnbaum. An integrayed understander. Amer. J. Comput. Ling., 1980, 6, № 1
60. C.Freedman, G.Hripcsak, W.DuMouchel, S.B.Johnson, P.D.Clayton. Natural language processing in an operational clinical information systems. Natural Language Engineering (1), 1995
61. RCO Syntactic Engine: библиотека синтаксического анализа. Copyright © ООО «Гарант-Парк-Интернет», 2003
62. RCO Pattern Extractor 1.0: библиотека выделения объектов в тексте. Руководство разработчика. Copyright © ООО «Гарант-Парк-Интернет», 2003
63. RCO Fact Extractor 1.0: настройка описаний фактов. Руководство администратора. Copyright © ООО «Гарант-Парк-Интернет», 2004
64. E.Riloff. Automatically generating extraction patterns from untagged text. In Proc. 13-th National Conference on Artificial Intelligence, 1996
65. B.Sundheim ed., Proceedings Fifth Message Understanding Conference (MUC-5), Baltimore, Maryland, August 1993. Distributed by Morgan Kaufmann Publishers, Inc., San Mateo, California
66. The Oxford Handbook of Computational Linguistics. Ed. by R.Mitkov, Oxford University Press, 2003
67. Tipster Text Program (Phase I). Proceedings, Advanced Research Projects Agency, September 1993
68. R.Yangarber, R.Grishman. Customization of Information Extraction Systems. In Proc. International Workshop on Lexically Driven Information Extraction, Frascati, 1997
69. R.Yangarber, R.Grishman, P.Tapanainen, S.Huttunen. Automatic acquisition of domain knowledge for information extraction. In Proc. 18-th International Conference on Computational Linguistics, Saarbriicken, 2000
-
Похожие работы
- Построение естественноязыковых информационных систем для работы с деловыми документами
- Средства структурного проектирования конфигурируемых шаблонов авиационных деталей
- Средства онтологической поддержки процесса проектирования шаблонной оснастки в условиях авиационных производств
- Динамическая модель семантики и прагматики документов на базе расширения языка XML
- Разработка и исследование системы концептуального программирования с использованием лингвистического процессора