автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах

кандидата технических наук
Циликов, Илья Сергеевич
город
Санкт-Петербург
год
2010
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах»

Автореферат диссертации по теме "Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах"

На правах рукописи

щ

Циликов Илья Сергеевич

РАЗРАБОТКА МОДЕЛИ ПРЕДСТАВЛЕНИЯ, МЕТОДОВ И АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ТЕКСТА С ЦЕЛЬЮ ЕГО ФОРМАЛИЗАЦИИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

Специальность 05.13.01 - Системный анализ, управление и обработка информации (в технических системах)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2010

004602805

Работа выполнена на кафедре автоматизированных систем обработки информации и управления Санкт-Петербургского государственного электротехнического университета им. В.И.Ульянова (Ленина) (ЛЭТИ)

Научный руководитель: доктор технических наук, профессор

Борис Яковлевич Советов

Официальные оппоненты: доктор технических наук, профессор

Лукомский Юрий Александрович,

кандидат технических наук, доцент Раков Игорь Васильевич

Ведущая организация: Санкт-Петербургский государственный

университет аэрокосмического приборостроения

Защита диссертации состоится 2010 г. в /&_ часов на

заседании совета по защите докторских и кандидатских диссертаций Д212.238.07 Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» им. В.И.Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Профессора Попова, д. 5.

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан « /9» 2010 г.

Ученый секретарь совета по защите докторских и кандидатских диссертаций Д212.238.07 кандидат технических наук, /Р/

доцент Ч/й/^П В. В. Цехановский

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время история развития информационных систем, т. е. систем, предназначенных для хранения и обработки информации с использованием ЭВМ, насчитывает уже более полувека. Еще относительно недавно в ходу были перфораторы в качестве устройств ввода данных, листинги в виде рулонов бумаги длиной порой до нескольких метров в качестве носителя результатов машинной обработки, недельные, либо месячные временные интервалы — в качестве нормативных сроков обработки информации. В последнее десятилетие прошлого века ситуация претерпела качественные изменения. Основу информационной системы в настоящее время составляют: база данных, как правило, реляционного типа, поддерживающая доступ на основе стандарта SQL, программные средства, обеспечивающие логику обработки данных, и интерфейс пользователя.

Применение баз данных благодаря специальным методам хранения и представления данных и соответствующим алгоритмам оперирования ими позволяет обеспечивать высокую производительность информационных систем, а наличие единого стандарта доступа к данным обеспечивает высокую эффективность их разработки и функционирования. Но с другой стороны применение баз данных требует специальной процедуры ввода данных, и если исходная информация представлена в виде неструктурированного естественноязыкового текста, то эта процедура становится весьма трудоёмкой, в виду чего становится актуальной задача автоматизации этой процедуры. Эта задача требует применения методов интеллектуальной обработки текста, которые активно развиваются в настоящее время. Хотя существующие на настоящее время методы интеллектуальной обработки текста не способны оценивать его структурированность в той степени, в какой эта характеристика текста отражается в человеческом восприятии, что не позволяет создавать полностью автоматические системы ввода данных, а кроме того производительность вычислительной техники на настоящее время остаётся всё ещё недостаточной для эффективной работы многих методов интеллектуальной обработки текста, тем не менее применение частично автоматизированных систем может существенно сократить трудоёмкость процедуры ввода данных, что обусловливает актуальность задачи разработки этих автоматизированных систем. i

\J\

В области интеллектуальной обработки текста первым значительным успехом было появление контекстно-свободных грамматик Н. Хомского. В нашей стране большее распространение получила модель "смысл-текст" И. А. Мельчука. Возможные доработки и модификации этой модели были предложены Ю. Д. Апресяном, а также Е. В. Падучевой. В практическую реализацию систем интеллектуальной обработки текста, основанных на этой модели, большой вклад внесли А. В. Сокирко, П. В. Толпегин, И. М. Ножов, их предшественниками в этой работе были Н. Н. Леонтьева, С. Л. Никогосов, И. М. Кудряшова, О. Б. Малевич.

Развитие 1п1егпе1:'а потребовало широкого применения других методов интеллектуальной обработки текста, в первую очередь методов информационного поиска. Первый метод информационного поиска был предложен К. Муром в 1948 году, сначала его применение ограничивалось обеспечением доступа к книгам, журналам и другим документам в университетах и библиотеках. Первая поисковая система для Ыегпй'а разработана М. Грэем из Массачусетскош технологического института в 1993 году. Ранее в 1988 году С. Диэрвестером был предложен латентно-семантический анализ, основанный на теории сингулярного разложения, разработанной Дж. Сильвестром в 1889 году. Также в качестве одного из методов интеллектуальной обработки текста стал активно использоваться кластерный анализ, впервые предложенный Р. Трионом в 1939 году.

Тем не менее все эти подходы к интеллектуальной обработке текста не могли обеспечить качество решения различных задач, адекватное восприятию естественно-языковых текстов человеком. Одной из попыток достичь более высокого качества интеллектуальной обработки текста является начатый в США в 90-е годы прошлого века проект «Микрокосмос», работа над которым продолжается в настоящее время. Этот проект ориентирован преимущественно на решение задачи машинного перевода и основные его наработки касаются английского и испанского языков. Среди работ, выполненных в нашей стране, можно отметить семантический анализатор, разработанный В. А. Тузовым, а также разрабатываемый в настоящее время в Санкт-Петербургском институте лингвистических исследований открытый лингвистический процессор. Ещё один подход к интеллектуальной обработке текста предложен В. А. Фомичевым.

Сложность применения перечисленных более новых подходов к интеллектуальной обработке текста для построения автоматизированной системы ввода данных в информационные системы с формализованной

структурой документа состоит в том, что не существует ни одной завершённой, общедоступной и практически применимой реализации какого-либо из этих подходов для русского языка. В связи с этим предлагается основывать интеллектуальную обработку текста на модели "смысл-текст" И. А. Мельчука, сочетая с элементами подходов, появившихся в связи с развитием 1п1еше1'а.

Объектом исследования являются информационные системы, использующие в своих данных естественно-языковый текст и использующие его формализованную структуру.

Предметом исследования являются модели представления естественноязыкового текста и алгоритмы для его формализованного структурирования.

Цель и задачи исследования. Основной целью представленной диссертации является разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах. При этом решаются следующие задачи:

1. Разработать модель представления естественно-языкового текста на основе семантической сети для его интеллектуальной обработки текста с целью формализации в информационных системах

2. Разработать алгоритм структурирования естественно-языкового текста для его формализации в информационных системах в соответствии с такими критериями структурированности текста, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.

3. Разработать методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста.

4. Разработать алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления.

5. Разработать алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления.

Методы исследования. Для проведения исследований были использованы методы графематического, морфологического, синтаксического и первичного семантического анализа естественно-языковых текстов, методы иерархической и бинарной кластеризации, матричные вычисления, методы квазиреферирования, исчисление предикатов.

Основные положения, выносимые на защиту:

• Модель представления естественно-языкового текста на основе семантической сети.

• Алгоритм структурирования естественно-языкового текста для его формализации в информационных системах.

• Методы и алгоритм для формирования иерархического оглавления естественно-языкового текста.

• Алгоритм для формирования заголовков у каждого из разделов оглавления.

• Алгоритм для обеспечения семантической связанности внутри каждого из разделов оглавления.

Научная новизна работы.

• Предложена модель представления естественно-языкового текста, базирующаяся на модели «смысл-текст» в виде семантической сети, отличающаяся единой семантической сетью для всего текста, использованием числовых значений для узлов и связей, позволяющая реализовать алгоритм формирования структуры естественно-языкового текста для его формализации в информационных системах.

• Предложен алгоритм структурирования естественно-языкового текста для его формализации в информационных системах в соответствии с такими критериями структурированности текста, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.

• Разработаны методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста, отличающиеся предварительным вычислением агрегирующих характеристик для абзацев и возможностью получать переменное

количество структурных элементов на каждом уровне объединения.

• Разработаны алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления, позволяющий формировать заголовки из фрагментов сгруппированных частей исходного неструктурированного естественно-языкового текста, делимого по лексемам.

• Разработан алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления, отличающийся использованием правил для предикатов, позволяющих расставить предложения в изначально несвязанных фрагментах естественно-языкового текста в порядке, обеспечивающем наибольшую семантическую связанность получаемого в итоге текста.

Достоверность научных результатов и выводов результатов исследований, полученных автором диссертации, подтверждена строгостью применяемых математических методов и приемлемой степенью согласованности теоретических научных положений с результатами экспериментальных исследований.

Научная и практическая ценность диссертационной работы заключается в том, что результаты, полученные в данной работе, могут быть использованы при обработке неструктурированных текстов, для выделения смысловой нагрузки в учебных и руководящих технических материалах, для определения наиболее актуальных тем при работе RSS-агрегаторов, для педагогических измерительных материалов.

Апробация работы.

Основные положения и результаты диссертации докладывались и обсуждались на 5-й научно-методической конференции «Инновации в науке, образовании и бизнесе» (г. Пенза, 2007 г.), на 14-й научно-методической конференции «Телематика'2007» (г. Санкт-Петербург, 2007 г.), на 15-й научно-методической конференции «Телематика'2008» (г. Санкт-Петербург, 2008 г.) и на научной конференции «Региональная информатика-2008» (г. Санкт-Петербург, 2008 г.)

Публикации.

Основные теоретические и практические результаты диссертации опубликованы в 9 статьях и докладах, из них по теме диссертации 9, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, 3 статьи в других изданиях. Доклады доложены и получили одобрение на 4 международных, всероссийских и межвузовских научно-практических конференциях перечисленных в конце автореферата. Основные положения защищены 1 патентом.

Структура и объем работы.

Диссертация состоит из введения, четырех глав с выводами, заключения. Она изложена на 148 страницах машинописного текста, включает 11 рисунков, 12 таблиц и содержит список литературы из 112 наименований, среди которых 85 отечественных и 27 иностранных авторов.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность исследуемой проблемы, формулируется цель и направление диссертационной работы, приводятся результаты, выносимые на защиту и определяющие научную новизну и практическую ценность результатов исследований.

В первой главе даётся общая характеристика вопросу интеллектуальной обработки текста, в частности рассматривается понятие информационной системы и сущность формализации данных, указывается понятие документа как структурной единицы информационной системы. Далее рассматривается возникновение и развитие области интеллектуальной обработки текста, перечисляются основные направления, существующие в этой области, указываются работы, выполненные в соответствующих направлениях. Отдельно рассматривается классификация моделей естественно-языкового текста. Даётся основная терминология в области интеллектуальной обработки текста, перечисляются основные задачи, решаемые в этой области в настоящее время, кратко указываются их типовые схемы решения. Специально рассматриваются перспективные разработки и направления в области интеллектуальной обработки текста, и указываются нерешённые в настоящее время для этих направлений проблемы, затрудняющие использование соответствующих разработок на практике. Далее делается постановка задачи формирования структуры

изначально неструктурированного естественно-языкового текста, в ходе которой выделяются следующие подзадачи:

• формирование оглавления текста, выявление семантически связанных между собой разделов;

• синтез заголовков для выделенных разделов;

• получение связанного текста внутри выделенных разделов.

Во второй главе проводится анализ существующих моделей естественноязыкового текста на предмет их применимости к решению задачи формирования структуры изначально неструктурированного естественно-языкового текста. Делается вывод о том, что целесообразно использовать модели, получаемые на уровне первичного семантического анализа, далее разработана модель текста, применимая к решению задачи формирования структуры изначально неструктурированного естественно-языкового текста, базирующаяся на модели "смысл-текст" И. А. Мельчука и использующая числовые значения для узлов и дуг единой семантической сети всего текста. Далее выполняется выбор системы первоначальной обработки текста, т. е. преобразования естественно-языкового текста, представленного в виде последовательности символов кодовой таблицы, к используемой модели, и на основе критерия качества первоначальной обработки текста делается вывод о целесообразности использования системы ДИАЛИНГ. Отдельно рассматривается вопрос о выборе конечной формы представления результата, и по соотношению критериев интегрируемости, адапритуемости и операбельности предпочтительным оказывается формат данных, соответствующий одновременно спецификациям HTML и XML.

Затем делается выбор методов решения подзадач, выделенных в первой главе, в ходе которых эти подзадачи в свою очередь делятся на отдельные подзадачи, выделяются отдельные аспекты их решения, для них подбираются соответствующие методы. Первая из подзадач задачи формирования структуры изначально неструктурированного естественно-языкового текста, а именно формирование оглавления текста, разделяется на подзадачи вычисления агрегирующих характеристик для единиц текста и последующей иерархической кластеризации. Для вычисления агрегирующих характеристик за основу берутся статистические данные семантической сети, по сравнению с методами снижения размерности предпочтение отдаётся методам бинарной кластеризации, а именно известному алгоритму fuzzy C-Means, по результатам работы которого подсчитывается значение агрегирующих характеристик для абзацев. Для иерархической кластеризации и формирования оглавления текста выбирается

метод, основанный на предварительной кластеризации известными методами с объединением двух элементов на каждом уровне и последующей перегруппировке с объединением переменного числа элементов на каждом уровне, требующей специального алгоритма. Для синтеза заголовков для выделенных разделов на основе критериев потенциальной эффективности и эффективности существующих реализаций методов реферирования, а также использования в них качества исходного текста, делается выбор в пользу методов квазиреферирования. Для задачи получения связанного текста внутри выделенных разделов делается вывод, что требуются методы, оперирующие небольшими структурными элементами и выполняющие над ними преобразования, что аналогично задаче извлечения знаний из текста и внутреннему представлению знаний, среди методов решения которой известны исчисление предикатов, продукции и фреймы, и в результате сравнения эффективности этих методов в отношении решаемой задачи предпочтительным оказывается использование исчисления предикатов.

В третьей главе в соответствии с выбранными во второй главе методами, выполняется разработка специфических алгоритмов и методов для решения узких подзадач и отдельных их аспектов. Для первой из обозначенных подзадач, которой является вычисление агрегирующих характеристик, разработки специальных алгоритмов не требуется, поскольку основой является известный алгоритм fuzzy C-Means, но требуется разработка специальных методов, а именно:

• выявления понятий, по данным которых выполняется кластеризация;

• приписывания понятиям значений измерений, по которым выполняется кластеризация;

• вычисления агрегирующих характеристик по результатам кластеризации.

За основу исходных данных кластеризации предложено использовать данные о

существительных и глаголах, строя матрицу, основывающуюся на числовых значениях дуг, связывающих их в семантической сети. При этом предложено использовать не все лексемы, которым по итогам первоначальной обработки текста были приписаны граммемы глаголов или существительных, а только имеющие наибольшие числовые значения их узлов. На основе нечёткого распределения лексем по кластерам, изначального их распределения по абзацам и числовых значений их узлов предложен метод вычисления агрегирующих характеристик для абзацев.

В задаче иерархической кластеризации и формирования оглавления текста указывается алгоритм преобразования линейного списка абзацев с приписанными им числовыми значениями агрегирующих характеристик в иерархическую структуру, основанный на известных агломеративных методах иерархической кластеризации, а далее разрабатывается алгоритм, выполняющий перегруппировку с объединением переменного числа элементов на каждом уровне при использовании фиксированного количества уровней и заданных для них относительных значений расстояний между центрами кластеров, полученных при исходной иерархической кластеризации.

Для решения задачи синтеза заголовков для выделенных разделов, для которой ранее было предложено использовать метод квазиреферирования, разрабатывается соответствующий алгоритм, выполняющий перебор выделенных в оглавлении разделов и осуществляющий для них два основных действия:

• выбор основных понятий раздела текста для использования их в заголовке;

• поиск фрагмента текста, содержащего оптимальное сочетание выбранных понятий.

Для получения связанного текста внутри выделенных разделов разработаны правила для исчисления предикатов, использующие в качестве входных данных списки понятий и предложений и факты о вхождении понятий в предложения и обеспечивающие на выходе списки, обозначающие расстановку предложений внутри разделов и границы между абзацами. Для упрощения общей программной архитектуры разрабатываемой системы предложено реализовать вывод, применяемый в исчислении предикатов, на алгоритмическом языке программирования с использованием условий и рекурсий.

В четвертой главе составляется концептуальная модель проводимого машинного эксперимента (рис. 1), приводится схема разработанной системы, на основе которой выполняется эксперимент, в виде диаграммы классов (рис. 2), определяется порядок проведения эксперимента применительно к анализу качества решения каждой из выделенных подзадач задачи формирования структуры изначально неструктурированного естественно-языкового текста.

&ПвЛЬ»«1

Рисунок 1. Концептуальная модель машинного эксперимента.

Далее даётся более подробное описание экспериментального исследования качества решения каждой из подзадач и приводятся результаты эксперимента. Для подзадачи вычисления агрегирующих характеристик приводится представление результатов в виде графиков и даётся их качественная оценка, для подзадач иерархической кластеризации и формирования оглавления текста, синтеза заголовков для выделенных разделов и получения связанного текста внутри выделенных разделов даётся только качественная оценка полученных результатов.

Рисунок 2. Структура разработанной системы.

По результатам эксперимента полученные результаты оказываются удовлетворительными для предварительного формирования структуры изначально неструктурированного естественно-языкового текста при условии последующей их правки вручную.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В работе изложены научно обоснованные новые технические решения по созданию системы структурирования естественно-языкового текста для его формализации в информационных системах, базирующейся на модели его представления первично-семантического уровня, с использованием статистических и лингвистических методов его интеллектуальной обработки.

1. Разработана модель представления естественно-языкового текста, базирующаяся на модели "смысл-текст" в виде семантической сети, отличающаяся единой семантической сетью для всего текста, использованием числовых значений для узлов и связей, что может быть использовано при формировании структуры естественно-языкового текста для его формализации в информационных системах.

2. Разработан алгоритм структурирования естественно-языкового текста для его формализации в информационных системах, отличающийся использованием таких критериев его структурированности, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.

3. Разработаны методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста, отличающиеся предварительным вычислением агрегирующих характеристик для абзацев и возможностью получать переменное количество структурных элементов на каждом уровне объединения. Бинарная кластеризация выполняется для выделенных понятиям, роль которых в разработанной модели выполняют лексемы, а для их выделение используются весовые значения и граммемы их узлов семантической сети.

4. Разработаны алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления, позволяющий формировать заголовки из фрагментов сгруппированных частей исходного неструктурированного естественно-языкового текста, делимого по лексемам.

5. Разработан алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления, отличающийся использованием правил для предикатов, позволяющих расставить предложения в изначально несвязанных фрагментах естественно-языкового текста в порядке, обеспечивающем наибольшую семантическую связанность получаемого в итоге текста.

6. Результаты машинного эксперимента показали, что решение задачи структурирования естественно-языкового текста для его формализации в информационных системах отвечает требованиям предварительной обработки при вводе данных в информационную систему при использовании последующей правки вручную. Наилучшие результаты по структурированию естественно-языкового текста для его формализации в информационных системах получены при использовании от 5 до 10 агрегирующих характеристик и пороговой величине весовых значений узлов понятий в тексте от 1 для самых коротких текстов с увеличением на 1 для каждых 4000 символов, а выбранный методов формирования связанного текста существенно не зависит от параметров общего алгоритма.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК России:

1. Циликов И. С. Методы и алгоритмы структуризации естественноязыкового текста [Текст] / И.С. Циликов // Системы управления и информационные технологии. № 1.1. (39). 2010. - С. 194-199

Другие статьи и материалы конференций:

2. Пат. № 2008114801 Российская Федерация, МПК7 G01F 17/28. Способ поиска информации в массиве текстов [Текст] / Циликов И. С.; заявитель и патентообладатель Мордов. гос. ун-т. - Заявл. 15.04.2008; опубл. 19.02.2010. 2010

3. Советов Б. Я., Циликов И. С. Вопрос о необходимости стандарта в области Text Mining [Текст] / И.С. Циликов // Труды V Всероссийской научно-методической конференции «Инновации в науке, образовании и бизнесе», Информационно-издательский центр ПГУ, Пенза, 14-15 мая 2007 года

4. Советов Б. Я., Циликов И. С. Комбинированный метод обработки естественных языков [Текст] / И.С. Циликов // Труды XIV Всероссийской научно-методической конференции «Телематика '2007», изд-во ЛИТМО (технический университет), Санкт-Петербург, 19-22 июня 2008 г

5. Циликов И. С. Модель семантики естественного языка [Текст] / И.С. Циликов // Дифференциальная алгебр и динамика систем: Межвуз. сб. науч.-изд-во Мордов. ун-та. 2008, 160 е.. С.131-137

6. Циликов И. С. Подход к выявлению интенсионалов лексем в естественноязыковом тексте [Текст] / И.С. Циликов // Дифференциальная алгебр и динамика систем: Межвуз. сб. науч.-изд-во Мордов. ун-та. 2008,160 е.. С.137-141

7. Циликов И. С. Подход к решению задачи автоматического построения неявных выводов из естественно-языковых текстов [Текст] / И.С. Циликов // Дифференциальная алгебр и динамика систем: Межвуз. сб. науч.-изд-во Мордов. ун-та. 2008,160 е.. С. 145-149

8. Циликов И. С. Моделирование семантики естественных языков [Текст] / И.С. Циликов // Труды XV Всероссийской научно-методической конференции «Телематика-2008», Санкт-Петербург, 23-26 июня 2008 г

9. Циликов И. С. Метод применения правил формальных грамматик для глубинного семантического анализа [Текст] / И.С. Циликов // Материалы XI Санкт-Петербургской международной конференции «Региональная информатика-2008 «РИ-2008», Санкт-Петербург, 21-24 октября 2008 г

Подписано в печать 16.04.10. Формат 60*84 1/16. Бумага офсетная. Печать офсетная. Печ. л. 1,0. Тираж 100 экз. Заказ 16.

Отпечатано с готового оригинал-макета в типографии Издательства СПбГЭТУ "ЛЭТИ"

Издательство СПбГЭТУ "ЛЭТИ" 197376, С.-Петербург, ул. Проф. Попова, 5

Оглавление автор диссертации — кандидата технических наук Циликов, Илья Сергеевич

Введение.

Глава 1. Общая характеристика проблемы интеллектуальной обработки текста.

§1.1 .Предметная область.

§1.2.Общая характеристика направлений в области интеллектуальной обработки текста.

§1.3.Общая характеристика моделей представления и методов интеллектуальной обработки текста.

§1.4. Общая характеристика перспективных моделей представления и методов интеллектуальной обработки текста и сложность их применения в настоящее время.

§1.5.Общая характеристика задач и основная терминология интеллектуальной обработки текста.

§ 1.6. Постановка задачи.

Выводы по главе 1.

Глава 2. Выбор модели представления и методов интеллектуальной обработки текста.

§2.1. Выбор модели представления текста.

§2.2. Выбор метода первоначальной обработки текста и формы представления конечного результата.

§2.3. Выбор методов интеллектуальной обработки текста.

§2.4. Выбор метода кластеризации семантической сети и метода получения агрегирующих характеристик.

§2.5. Выбор метода иерархической кластеризации для формирования оглавления текста.

Выводы по главе 2.

Глава 3. Разработка методов и алгоритмов интеллектуальной обработки текста.

§3.1. Разработка методов кластеризации семантической сети и получения агрегирующих характеристик.

§3.2. Разработка алгоритма иерархической кластеризации и формирования оглавления текста.

§3.3. Разработка алгоритма синтеза заголовков выделенных разделов текста.

§3.4. Разработка алгоритма формирования связанного текста.

Выводы по главе 3.

Глава 4. Экспериментальное исследование методов и алгоритмов интеллектуальной обработки текста.

§4.1. Общее описание и характеристика эксперимента.

§4.2. Экспериментальное исследование метода получения агрегирующих характеристик.

§4.3. Экспериментальное исследование метода иерархической кластеризации и формирования структуры текста.

§4.4. Экспериментальное исследование метода синтеза заголовков выделенных

разделов текста.

§4.5. Экспериментальное исследование метода формирования связанного текста.

Выводы по главе 4.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Циликов, Илья Сергеевич

В настоящее время история развития информационных систем, т. е. систем, предназначенных для хранения и обработки информации с использованием ЭВМ, насчитывает уже более полувека. Еще относительно недавно в ходу были перфораторы в качестве устройств ввода данных, листинги в виде рулонов бумаги длиной порой до нескольких метров в качестве носителя результатов машинной обработки, недельные, либо месячные временные интервалы — в качестве нормативных сроков обработки информации. В последнее десятилетие прошлого века ситуация претерпела качественные изменения. Основу информационной системы в настоящее время составляют: база данных, как правило, реляционного типа, поддерживающая доступ на основе стандарта SQL, программные средства, обеспечивающие логику обработки данных, и интерфейс пользователя.

Применение баз данных благодаря специальным методам хранения и представления данных и соответствующим алгоритмам оперирования ими позволяет обеспечивать высокую производительность информационных систем, а наличие единого стандарта доступа к данным обеспечивает высокую эффективность их разработки и функционирования. Но с другой стороны, применение баз данных требует специальной процедуры ввода данных, и если исходная информация представлена в виде неструктурированного естественно-языкового текста, то эта процедура становится весьма трудоёмкой, в виду чего становится актуальной задача автоматизации этой процедуры. Эта задача требует применения методов интеллектуальной обработки текста, которые активно развиваются в настоящее время. Существующие на настоящее время методы интеллектуальной обработки текста не способны оценивать его структурированность в той степени, в какой эта характеристика текста отражается в человеческом восприятии, что не позволяет создавать полностью автоматические системы ввода данных. Кроме того производительность вычислительной техники на настоящее время остаётся всё ещё недостаточной для эффективной работы многих методов интеллектуальной обработки текста, тем не менее применение частично автоматизированных систем может существенно сократить трудоёмкость процедуры ввода данных, что обусловливает актуальность задачи разработки этих автоматизированных систем.

В области интеллектуальной обработки текста первым значительным успехом было появление контекстно-свободных грамматик Н. Хомского. В нашей стране большее распространение получила модель "смысл-текст" И. А. Мельчука. Возможные доработки и модификации этой модели были предложены Ю. Д. Апресяном, а также Е. В. Падучевой. В практическую реализацию систем интеллектуальной обработки текста, основанных на этой модели, большой вклад внесли А. В. Сокирко, П. В. Толпегин, И. М. Ножов, их предшественниками в этой работе были Н. Н. Леонтьева, С. Л. Никогосов, И. М. Кудряшова, О. Б. Малевич.

Развитие Internet'a потребовало широкого применения других методов интеллектуальной обработки текста, в первую очередь методов информационного поиска. Первый метод информационного поиска был предложен К. Муром в 1948 году, сначала его применение ограничивалось обеспечением доступа к книгам, журналам и другим документам в университетах и библиотеках. Первая поисковая система для Internet'a разработана М. Грэем из Массачусетского технологического института в 1993 году. Ранее в 1988 году С. Диэрвестером был предложен латентно-семантический анализ, основанный на теории сингулярного разложения, разработанной Дж. Сильвестром в 1889 году. Также в качестве одного из методов интеллектуальной обработки текста стал активно использоваться кластерный анализ, впервые предложенный Р. Трионом в 1939 году.

Тем не менее, все эти подходы к интеллектуальной обработке текста не могли обеспечить качество решения различных задач, адекватное восприятию естественно-языковых текстов человеком. Одной из попыток достичь более высокого качества интеллектуальной обработки текста является начатый в США в 90-е годы прошлого века проект «Микрокосмос», работа над которым продолжается в настоящее время. Этот проект ориентирован преимущественно на решение задачи машинного перевода, и основные его наработки касаются английского и испанского языков. Среди работ, выполненных в нашей стране, можно отметить семантический анализатор, разработанный В. А. Тузовым, а также разрабатываемый в настоящее время ]В Санкт-Петербургском институте лингвистических исследований открытый лингвистический процессор. Ещё один подход к интеллектуальной обработке текста предложен В. А. Фомичевым.

Сложность применения перечисленных более новых подходов к интеллектуальной обработке текста для построения автоматизированной системы ввода данных в информационные системы с формализованной структурой документа состоит в том, что не существует ни одной завершённой, общедоступной и практически применимой реализации какого-либо из этих подходов для русского языка. В связи с этим предлагается основывать интеллектуальную обработку текста на модели "смысл-текст" И. А. Мельчука, сочетая с элементами подходов, появившихся в связи с развитием Internet'a.

Объектом исследования являются информационные системы, использующие в своих данных естественно-языковый текст и использующие его формализованную структуру.

Предметом исследования являются модели представления естественноязыкового текста и алгоритмы для его формализованного структурирования.

Цель и задачи исследования. Основной целью представленной диссертации является разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах. При этом решаются следующие задачи:

1. Разработать модель представления естественно-языкового текста на основе семантической сети для его интеллектуальной обработки текста с целью формализации в информационных системах

2. Разработать алгоритм структурирования естественно-языкового текста для его формализации в информационных системах в соответствии с такими ' критериями структурированности текста, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.

3. Разработать методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста.

4. Разработать алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления.

5. Разработать алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления.

Методы исследования. Для проведения исследований были использованы методы графематического, морфологического, синтаксического и первичного семантического анализа естественно-языковых текстов, методы иерархической и бинарной кластеризации, матричные вычисления, методы квазиреферирования, исчисление предикатов.

Основные положения, выносимые на защиту:

• Модель представления естественно-языкового текста на основе семантической сети.

• Алгоритм структурирования естественно-языкового текста для его формализации в информационных системах.

• Методы и алгоритм для формирования иерархического оглавления естественно-языкового текста.

• Алгоритм для формирования заголовков у каждого из разделов оглавления.

• Алгоритм для обеспечения семантической связанности внутри каждого из разделов оглавления.

Научная новизна работы.

• Предложена модель представления естественно-языкового текста, базирующаяся на модели «смысл-текст» в виде семантической сети, отличающаяся единой семантической сетью для всего текста, использованием числовых значений для узлов и связей, позволяющая реализовать алгоритм формирования структуры естественно-языкового текста для его формализации в информационных системах.

• Предложен алгоритм структурирования естественно-языкового текста для его формализации в информационных системах в соответствии с такими критериями структурированности текста, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.

• Разработаны методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста, отличающиеся предварительным вычислением агрегирующих характеристик для абзацев и возможностью получать переменное количество структурных элементов на каждом уровне объединения.

• Разработаны алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления, позволяющий формировать заголовки из фрагментов сгруппированных частей исходного неструктурированного естественноязыкового текста, делимого по лексемам.

• Разработан алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления, отличающийся использованием правил для предикатов, позволяющих расставить предложения в изначально несвязанных фрагментах естественно-языкового текста в порядке, обеспечивающем наибольшую семантическую связанность получаемого в итоге текста.

Достоверность научных результатов и выводов, результатов исследований, полученных автором диссертации, подтверждена строгостью применяемых математических методов и приемлемой степенью согласованности теоретических научных положений с результатами экспериментальных исследований.

Научная и практическая ценность диссертационной работы заключается в том, что результаты, полученные в данной работе, могут быть использованы при обработке неструктурированных текстов, для выделения смысловой нагрузки в учебных и руководящих технических материалах, для определения наиболее актуальных тем при работе RSS-агрегаторов, для педагогических измерительных материалов.

Апробация работы.

Основные положения и результаты диссертации докладывались и обсуждались на 5-й научно-методической конференции «Инновации в науке, образовании и бизнесе» (г. Пенза, 2007 г.), на 14-й научно-методической конференции «Телематика'2007» (г. Санкт-Петербург, 2007 г.), на 15-й научно-методической конференции «Телематика'2008» (г. Санкт-Петербург, 2008 г.) и на научной конференции «Региональная информатика-2008» (г. Санкт-Петербург, 2008 г.)

Публикации.

Основные теоретические и практические результаты диссертации опубликованы в 9 статьях и докладах, из них по теме диссертации 9, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, 3 статьи в других изданиях. Доклады доложены и получили одобрение на 4 международных, всероссийских и межвузовских научно-практических конференциях перечисленных в конце автореферата. Основные положения защищены 1 патентом.

Структура и объем работы. ь

Диссертация состоит из введения, четырех глав с выводами, заключения. Она изложена на 148 страницах машинописного текста, включает 11 рисунков, 12 таблиц и содержит список литературы из 112 наименований, среди которых 85 отечественных и 27 иностранных авторов.

Заключение диссертация на тему "Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах"

Выводы по главе 4

1. Наилучшие результаты по формированию структуры изначально неструктурированного естественно-языкового текста получены при использовании от 5 до 10 агрегирующих характеристик и пороговой частоты понятий в тексте от 1 для самых коротких текстов с увеличением на 1 для каждых 4000 символов, а выбранный метод формирования связанного текста существенно не зависит от параметров общего алгоритма.

2. Результаты машинного эксперимента показали, что формирование структуры изначально неструктурированного естественно-языкового текста отвечают требованиям предварительной обработки при вводе данных в информационную систему при использовании последующей правки вручную. Полученного качества решения этой задачи вполне достаточно для практического применения для RSS-агрегации, контроля педагогических измерительных материалов, выделения смысловой нагрузки участков текста технических материалов и т. д.

Заключение

Целью исследования являлось создание модели представления естественно- ■ языкового текста, разработка методов и алгоритмов его интеллектуальной обработки на основе этой модели с целью его формализации в информационных системах.

Данную цель предполагалось достичь на основе выбора в качестве основы оптимальных для решения задачи формализации естественно-языкового текста в информационных системах моделей его представления и методов обработки их для достижения наибольшего качества формализации в соответствии с выбранными критериями.

Для реализации поставленной цели исследования было выполнено:

1. Разработана модель представления естественно-языкового текста, базирующаяся на модели "смысл-текст" в виде семантической сети, отличающаяся единой семантической сетью для всего текста, использованием числовых значений для узлов и связей, что может быть использовано при формировании структуры естественно-языкового текста для его формализации в информационных системах.

2. Разработан алгоритм структурирования естественно-языкового текста для его формализации в информационных системах, отличающийся использованием таких критериев его структурированности, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.

3. Разработаны методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста, отличающиеся предварительным вычислением агрегирующих характеристик для абзацев и возможностью получать переменное количество структурных элементов на каждом уровне объединения. Бинарная кластеризация выполняется для выделенных понятий, роль которых в разработанной модели выполняют лексемы, а для их выделения используются весовые значения и граммемы их узлов семантической сети.

137

4. Разработан алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления, позволяющий формировать заголовки из фрагментов сгруппированных частей исходного неструктурированного естественноязыкового текста, делимого по лексемам.

5. Разработан алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления, отличающийся использованием правил для предикатов, позволяющих расставить предложения в изначально несвязанных фрагментах естественно-языкового текста в порядке, обеспечивающем наибольшую семантическую связанность получаемого в итоге текста.

6. Результаты машинного эксперимента показали, что решение задачи структурирования естественно-языкового текста для его формализации в информационных системах отвечает требованиям предварительной обработки при вводе данных в информационную систему при использовании последующей правки вручную. Наилучшие результаты по структурированию естественно-языкового текста для его формализации в информационных системах получены при использовании от 5 до 10 агрегирующих характеристик и пороговой величине весовых значений узлов понятий в тексте от 1 для самых коротких текстов с увеличением на 1 для каждых 4000 символов, а выбранный метод формирования связанного текста существенно не зависит от параметров общего алгоритма.

Достоверность научных результатов и выводов результатов исследований, полученных автором диссертации, подтверждена строгостью применяемых математических методов и приемлемой степенью согласованности теоретических научных положений с результатами экспериментальных исследований.

Библиография Циликов, Илья Сергеевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Носевич В. JI. «Электронные документы в современном делопроизводстве» // «Секретарь-референт», № 2, 2001, с. 3-7

2. Гринев М. «Системы управления полу структурированными данными» // «Открытые системы», №5, 1999

3. Люгер Дж. Ф. «Искусственный интеллект: стратегии и методы решения сложных проблем», М.: «Издательский дом "Вильяме"», 2003

4. Кулагина О. С. «О современном состоянии машинного перевода» // «Математические вопросы кибернетики», № 3, М.: «Наука», 1991

5. Roussopoulos N. D. «А semantic network model of data bases», TR № 104, Department of Computer Science, University of Toronto, 1976

6. Сегалович И. «Как работают поисковые системы» // «Мир Интернет», №10, 2002

7. Chierichetti F. «On Placing Skips Optimally in Expectation»//WSDM 2008

8. Андрианов И. А. «Анализ и разработка способов индексирования текстов на основе обобщенных и неплотных суффиксных деревьев». Дисс. на соискание ученой степени канд. техн. наук, СПб, 2005

9. Andrei Z. Broder, Steven С. Glassman, Mark S. Manasse «Indexing by Latent Semantic Analysis», JASIS, 1990

10. Сегалович И., Маслов M. «Русский морфологический анализ и синтез с генерацией моделей словоизменения для неописанных в словаре слов», Казань, 1998, т. 2, с. 547-552

11. П.Толпегин П. В. «Информационные технологии анализа русских естественно-языковых текстов. Часть I» // «Информационные технологии», 2006, №8

12. Т. Kakkonen «Framework and Resources for Natural Language Parser Evaluation», academic dissertation, 2007

13. Тестелец Я. Г. «Введение в общий синтаксис», СПб, 2001

14. Хомский Н. «Введение в формальный анализ естественных языков», 2003

15. Рассел С. «Искусственный интеллект», М., 2007

16. Мельчук И. А. «Опыт теории лингвистических моделей типа "Смысл-Текст"», М., 1974

17. Тихомиров И. А., Смирнов И. В. «Интеграция лингвистических и статистических методов поиска в поисковой машине "Exactus"» // Диалог 2008

18. Анисимов А. В., Марченко А. А. «Ассоциативное реферирование естественно-языковых текстов» // «Искусственный интеллект», №3, 2006

19. Башмаков И. А., Рабинович П. Д. «Анализ моделей семантических сетей как математического аппарата представления знаний об учебном материале»// «Справочник. Инженерный журнал», 2002, №7, с. 55 60

20. Кузнецов И. П. «Механизмы обработки семантической информации», М.: «Наука», 1978, 115 с.

21. Кузнецов И. П. «Расширенные семантические сети для представления и обработки знаний» // Системы и средства информатики: Ежегод. Вып. 4 / РАН. Ин-т проблем информатики М., 1993. с. 70-83

22. Осипов Г. С. «Построение моделей предметных областей. Неоднородные семантические сети»// «Известия РАН. Техническая кибернетика», 1990, №5, с. 32-45

23. Башмаков А. И., Башмаков И. А., «Механизмы наследования, выявления и разрешения противоречий в обобщенной модели представления предметной области. Ч. I» // «Известия РАН. Техническая кибернетика», 1994, №5, с. 14-27

24. Башмаков А. И., Башмаков И. А., «Механизмы наследования, выявления и разрешения противоречий в обобщенной модели представления предметной области. Ч. II» // «Известия РАН. Теория и системы управления», 1995, №3, с. 175-189

25. Перминов И. А. «Нечеткая объектно-ориентированная семантическая сеть» // Международный форум информатизации 1999: Доклады международной конференции «Информационные средства и технологии», т. 3, с. 37-40

26. Перминов И. А. «Объектно-ориентированный язык для оперирования семантическими сетями» // Международный форум информатизации -2000: Доклады международной конференции «Информационные средства и технологии», т. 3, с. 212-215

27. Viegas Е., Mahesh К., Nirenburg S., «Semantics In Action», 1998

28. Stephen Beale «Using Branch-and-Bound with Constraint Satisfaction in Optimization Problems» // Proceedings AAAI-97, Providence, Rhode Island, 1997

29. Stephen Beale «Exploiting Graph Topology for Optimization Problems», 199631 .Тузов В. А. «Компьютерная семантика русского языка», СПб, 2004

30. Мозговой М. В. «Машинный семантический анализ русского языка и его применения». Дисс. на соискание ученой степени канд. физ.-мат. наук, СПб, 2006

31. Кутарба А. Ю. «Построение семантического словаря для обработки англоязычных текстов». Дисс. на соискание ученой степени канд. физ.-мат. наук, СПб, 2006

32. Сидорова Е. А. «Методы и программные средства для анализа документов на основе модели предметной области». Дисс. на соискание ученой степени канд. физ.-мат. наук, Новосибирск, 2006

33. Фомичев В.А. «Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня» //

34. Информационные технологии», 2002, № 10

35. Фомичев В. А. «Формализация проектирования лингвистических процессоров», М., 2005, 368 с.

36. Фомичев В. А. «Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров». Дисс. на соискание ученой степени доктора техн. наук, М., 2004

37. Люстиг И. В. «Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах». Дисс. на соискание ученой степени канд. техн. наук, М., 2007

38. Мартынов В. В. «Универсальный семантический код», Минск, 1984

39. Красавина О. Н. «Корпусно-ориентированное исследование референции (принципы аннотации и анализ данных)». Дисс. на соискание ученой степени канд. филол. наук, М., 2006

40. Толпегин П. В. «Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов», М.: «КомКнига», 2006, 88 с.

41. Апресян Ю. Д. «Избранные труды», М., 1995

42. Апресян Ю. Д. «Новый объяснительный словарь синонимов русского языка», М., 2004

43. Uchida Hiroshi., Zhu Meiying.,Tarcisio Delia Senta, «А Gift for a,Millennium»

44. Marilyn A Walker «Limited Attention and Discourse Structure» // Computational Linguistics, Vol. 22, No. 2. (1996), pp. 255-264

45. Barbara Grosz, Aravind Joshi and Scott Weinstein, Centering: «А Framework for Modelling the Local Coherence of Discourse». Computational Linguistics 21(2), pp. 203-225, 1995

46. Поспелов Д. А. «Ситуационное управление», 1986

47. Кузнецов И. П. «Система обработки знаний на расширенных семантических сетях», М., 1990

48. Шуклин Д. Е. «Модели семантических нейронных сетей и их применение в системах искусственного интеллекта». Дисс. на соискание ученой степени канд. техн. наук, Харьков, 2003

49. Минский М. «Фреймы для представления», М., 1979, 152 с.55.«CLIPS Architecture Manual. Version 5.1», 1992, 457 с.

50. Сошников Д. В. «Методы и средства построения распределенных интеллектуальных систем на основе продукционно-фреймового представления знаний». Дисс. на соискание ученой степени канд. физ.-мат. наук, М., 2002

51. Лагерев Д. Г. «Автоматизация разработки управленческих решений в социально-экономических системах на основе применения нечетких когнитивных моделей». Дисс. на соискание ученой степени канд. техн. наук, Брянск, 2007

52. Вершинина В. В. «Метод и алгоритмы анализа контурных изображений в визуальных информационных системах на основе неоднородной нечеткой семантической сети». Дисс. на соискание ученой степени канд. техн. наук, Рыбинск, 2004

53. Бойцов JI. М. «Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска»//Труды конференции RCDL, 2004

54. Е. Ukkonen. «Finding approximate patterns in strings, 0(k * n) time»// «Journal of Algorithms» volume 6, pages 132-137, 1985.

55. R.A. Wagner and MJ. Fisher. «The String to String Correction Problem»//

56. Journal of the АСМ», volume 21(1), pages 168-173, 1974.

57. Соколова С. «Как переводит компьютер»http://www.promt.ru/company/technology/articles/articlesokolova.phpбЗ.Одиицев Н. В. «Адаптивный синтаксический анализатор русского языка». Дисс. на соискание ученой степени канд. физ.-мат. наук, М., 2003

58. Налимов В. В. «Вероятностная модель языка», М., 2003, 304 с.

59. Губин М. В. «Модели и методы представления текстового документа в системах информационного поиска». Дисс. на соискание ученой степени канд. техн. наук, 2005

60. Ножов И.М. «Морфологическая и синтаксическая обработка текста (модели и программы)». Дисс. на соискание ученой степени канд. техн. наук, 2003

61. Ерофеева Е. В., Кудлаева А. Н. «К вопросу о соотношении понятий ТЕКСТ и ДИСКУРС» // «Проблемы социо- и психолингвистики»: Сб. ст. / отв. ред. Т.И. Ерофеева; Перм. ун-т. Пермь, 2003. - Вып.З. - с. 28-36

62. Карасик В. И. «Структура институционально дискурса» // «Проблемы речевой коммуникации», Саратов, 2000

63. Кожевникова К. «Об аспектах связности в тексте как целом» // «Синтаксис текста», М, 1979

64. Косериу Э. «Современное положение в лингвистике» II Изв. АН СССР. 1977. Т.36. №6

65. Реферовская Е. А. «Коммуникативная структура текста», JL, 1989

66. Гальперин И. Р. «Текст как объект лингвистического исследования», М., 1981

67. Колшанский Г. В. «Коммуникативная функция и структура языка», М., 1984

68. Лосева JI. М. «Как строится текст», М, 1980

69. Тураева 3. Я. «Лингвистика текста», М., 1986

70. Борисова И. Н. «Русский разговорный диалог» // «Структура и динамика», Екатеринбург, 2001

71. Николаева Т. М. «Лингвистика текста: Современное состояние иперспективы» // «Новое в зарубежной лингвистике», М., 1978, вып.8: «Лингвистика текста»

72. Степанов Ю. С. «Альтернативный мир, Дискурс, Факт и принцип Причинности»// «Язык и наука конца XX века». Сб. статей. М.: «РГТУ», 1995, с. 35—7379.3вегинцев В. А. «Предложение и его отношение к языку и речи», М., 1976

73. Арутюнова Н. Д. «Дискурс» // «Лингвистический энциклопедический словарь», М., 1990

74. Серио П. «Как читают текст во Франции» // «Квадратура смысла: Французская школа анализа дискурса», М., 1999

75. Бенвинист Э. «Формальный аппарат высказывания» // «Общая лингвистика», М., 1974

76. Щерба Л. В. «О трояком аспекте языковых явлений и об эксперименте в языкознании» // Щерба Л.В. «Языковая система и речевая деятельность», Л., 1974

77. Иванов В. К., Иванов К. В. «Введение в информационно-поисковые системы: Методические указания по изучению дисциплины "Мировые информационые ресурсы"», ч. 1, Тверь: «ТГТУ», 2005, 36 с.

78. Капустин В. А. «Основы поиска информации в Интернете». Методическое пособие / Интернет-центр СПбО ИОО. СПб, 1999, 14 с.

79. Ландэ В. Д. «Поиск знаний в Internet», 2005

80. Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И. «Методы и модели анализа данных: OLAP и Data Mining»

81. Дюк В., Самойленко A. «Data Mining: учебный курс», СПб: «Питер», 2001, 368 с.

82. Толчеев В. О. «Методы выявления информативных признаков в задаче классификации текстовых документов» // «Информационные технологии», 2005, №8

83. Булкин В. И. «Разработка математических моделей и систем понимания текстов естественного языка» // «Искусственный интеллект», 2005, №3

84. Гаскаров Д. В. «Интеллектуальные информационные системы», 2003

85. Колмогоров А. Н. «Математическая логика», М., 2004

86. Леоненков А. В. «Нечеткое моделирование в среде MATLAB и fuzzyTECH», 2003

87. Булкин В. И., Шаронова Н. В. «Формальное представление знаний в продукционных системах» // «Искусственный интеллект», 2006, №1

88. Кузин Л. Т. «Языки представления знаний с помощью фреймов», 1989

89. Eduard Н. Hovy «Parsimonious and Profligate Approaches to the Question of Discourse Structure Relations»

90. Eduard H. Hovy, «Elisabeth Maier "Parsimonious or Profligate: How Many and Which Discourse Structure Relations?»

91. Daniel Marcu «The Theory and Practice of Discourse Parsing and Summarization», 2000, 272 c.

92. Daniel Marcu «The Rhetorical Parsing of Natural Language Texts» // The Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, (ACL'97/EACL'97) pages 96-103, Madrid, Spain, July 7-10,1997

93. Daniel Marcu «From Discourse Structures to Text Summaries» // The Proceedings of the ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization, pages 82-88, Madrid, Spain, July 11, 1997

94. Daniel Marcu «Automatic Discourse Parsing. Encyclopedia of Language and Linguistics», 2nd Edition, Elsevier, 2005

95. Simon Corston-Oliver. «Computing of Representations of the Structure of Written Discourse». Ph.D. thesis, University of California, Santa Barbara, 1998

96. Simon H. Corston-Oliver «Identifying the Linguistic Correlates of Rhetorical Relations»

97. Daphne Theijssen, Suzan Verberne and Hans van Halteren «Finding featuresч

98. Gian Lorenzo Thione, Martin van den Berg, Chris Culy, Livia Polanyi «LiveTree: An Integrated Workbench for Discourse Processing» // The Proceedings of the ACL2004 Workshop on Discourse Annotation, Barcelona, Spain, July 25-26, 2004.

99. Полещук О. M. «Методы формализации и обработки нечеткой экспертной информации» Дисс. на соискание ученой степени доктора техн. наук, М., 2004

100. Stein В., Meyer zu Eissen S. «Document Categorization with MajorClust» // Proceedings of the 12th Workshop on Information Technology and Systems (WITS-02). Barcelona, Spain, 2002, pp. 91-96

101. Осипов Г. С., Тихомиров И. А., Смирнов И. В. «Exactus система интеллектуального метапоиска в сети Интернет» // Труды десятой национальной конференции по искусственному интеллекту ' с международным участием КИИ-2006

102. Lewis D. D., «Feature selection and feature extraction for text categorization» // Proceedings of Speech and Natural Language Workshop, 1992

103. Публикации автора по теме диссертации

104. А1. Циликов И. С. Методы и алгоритмы структуризации естественноязыкового текста Текст. / И.С. Циликов // Системы управления и информационные технологии. № 1.1. (39). 2010. С. 194-199

105. А2. Пат. № 2008114801 Российская Федерация, МПК7 G01F 17/28. Способ поиска информации в массиве текстов Текст. / Циликов И. С.; заявитель ипатентообладатель Мордов. гос. ун-т. Заявл. 15.04.2008; опубл.1902.2010. 2010