автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска
Автореферат диссертации по теме "Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска"
На правах рукописи
005046130
ВИШНЯКОВ Ренат Юрьевич
РАЗРАБОТКА И ИССЛЕДОВАНИЕ ФОРМАЛИЗОВАННЫХ ПРЕДСТАВЛЕНИЙ И СЕМАНТИЧЕСКИХ СХЕМ ПРЕДЛОЖЕНИЙ ТЕКСТОВ НАУЧНО-ТЕХНИЧЕСКОГО СТИЛЯ ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННОГО ПОИСКА
Специальность: 05.13.17 «Теоретические основы информатики»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
2 2 ЦЮН 2012
Таганрог-2012
005046130
Работа выполнена в Технологическом институте федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.
НАУЧНЫЙ РУКОВОДИТЕЛЬ:
доктор технических наук, профессор Чернухин Юрий Викторович
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:
доктор технических наук, профессор, Ромм Яков Евсеевич;
ВЕДУЩАЯ ОРГАНИЗАЦИЯ:
кандидат технических наук, Спиридонов Олег Борисович.
ОАО «ТАНТК им. Г.М. Бериева» г.Таганрог.
Защита диссертации состоится « 4 » июля 2012 г. в 1420 на заседании диссертационного совета (Д 212.208.21) при Южном федеральном университете по адресу: 347928 г. Таганрог, пер.Некрасовский, 44, ауд. Д-406.
С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.
Автореферат разослан " 1 "июня 2012 г.
Просим Вас прислать отзыв на автореферат, заверенный гербовой печатью учреждения, по адресу: 347928, ГСП-17А, Ростовская область, г.Таганрог, пер. Некрасовский, 44, диссертационный совет Д 212.208.21
Ученый секретарь
диссертационного совета Д 212.208.21 доктор технических наук, доцент
Чернов Н.И.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы.
Глобальная сеть Интернет и компьютерные технологии сформировали целостное и быстро растущее информационное пространство, порождающее новые потребности в обработке, представлении и поиске информации. Сегодня все публикуемые бумажные документы оцифровываются и размещаются в электронных хранилищах различного назначения, активно используются поисковые машины и сервисы. На научных форумах активно обсуждается обработка текстовой информации и тесно связанные с ней информационный поиск и классификация документов, автореферирование, автоаннотирование и пр. Отмечается, что в информационном поиске критерий релевантности, основанный на встречаемости слов, при различении документов одинаковой терминологии, не дает приемлемого качества выдач, а решения предлагается искать в выделении семантической составляющей документов.
Отсутствие хороших решений в обработке семантики текстов связаны с многозначностью ее выражения в естественных языках, а также различными стилистическими приемами их оформления. Например, литературным текстам присущ художественный стиль со свойственной ему метафоричностью и образностью, научно-технической стиль отличает предельно точное выражение смысла в форме правдоподобного рассуждения. Однако семантика текстов всегда имеет грамматическое оформление и через него распознается.
Настоящая диссертационная работа выполнена в рамках данной проблематики и посвящена разработке и исследованию формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использованию для повышения эффективности информационного поиска.
Объект исследований. Особенности текстов документов научно-технического стиля, формализованные представления и семантические схемы предложений, эффективность информационного поиска.
Цели работы. Разработка и исследование новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использование для повышения эффективности информационного поиска
Задачи работы:
1. Провести анализ естественного языка и его грамматики, особенностей научно-технического стиля, существующих методов формализации представления предложений. Определить функционал смысловыразительности и проанализировать лингвистическое обеспечение различных видов информационного поиска.
2. Разработать и исследовать формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические слов-ные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.
3. Разработать и исследовать формализованное словно-шкальное представление предложения и его атрибуты: словную шкалу, ее разбиения на непересекающиеся классы, нумерацию разбиений, мощностные оценки, системы разбиений. Сконструировать алгоритмы построения систем разбиений и нотации их представления.
4. Определить и исследовать понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла, сконструировать обратную польскую запись функционала смысловыразительности, процедуры ее вычисления и представления в виде семантических схем.
5. Разработать критерий сравнения фрагментов текстов на близость, процедуры формирования ВЫДАЧ, а также провести экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.
Методы исследования. Для решения диссертационных задач использованы теория отношений, теория графов, комбинаторика; теория формальных языков и грамматик, информационного поиска, элементы теории нечеткой математики.
Научная новизна работы. Разработаны новые:
1. Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность.
2. Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость.
3. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска.
Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты диссертационного исследования:
1. Формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей
2. Формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, система разбиений, ее нотации, правила и алгоритмы конструирования.
3. Функционал смысловыразительности и его представление в нотации обратной польской записи, способы ее получения и вычисления, семантическая схема предложения.
4. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ.
Теоретическая и практическая значимость результатов исследования.
1. Проведен анализ естественного языка, грамматики, особенностей научно-технического стиля, существующих формальных представлений предложений. Определен функционал смысловыразительности, исследована смысловыразительность лингвистического обеспечения различных видов информационного поиска.
2. Разработано и исследовано формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.
3. Разработано и исследовано формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, системы разбиений и их нотации. Построены правила и алгоритмы конструирования систем разбиений.
4. Определены и исследованы понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла и сконструирован функционал смысловыразительности в нотации обратной польской записи, процедуры вычисления и представления его виде семантических схем.
5. Разработаны критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ, а также проведено экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.
Достоверность результатов. Подтверждается использованием теории отношений, теория графов, комбинаторики; нумераций, теория формальных грамматик и языков, информационного поиска, элементов нечеткой математики, а также результатами экспериментов.
Использование результатов работы. Результаты диссертационного исследования используются в ряде научных работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования госбюджетных НИР и учебном процессе магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня:
- Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление», (Таганрог, 2006,2008,2009,2010, 2011 гг.);
- Международной конференции по системам искусственного интеллекта при поддержке IEEE AIS'06, AIS'08, AIS'l 1 (Дивноморское, 2006,2008,2011гг.);
- Всероссийской научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления», (Таганрог, 2006 г.).
- Всероссийской научной школе-семинар молодых ученых аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки (Таганрог, 2007, 2008, 2009, 2010 гг.).
- Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Таганрог, 2008).
- Всероссийской научной школе-семинаре молодых ученых аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их
приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках» (Таганрог, 2011,2012 гг.).
Публикации. По материалам диссертации автором опубликовано 24 печатных работ, в том числе четыре статьи в изданиях из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Диссертация состоит из введения, пяти разделов и заключения. Основной текст изложен на 141 страниц!, содержит 58 рисунка, 21 таблицу, список литературы из 177 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационного исследования, сформулированы его цели и задачи, а также научные и практические результаты.
В первом разделе определена терминология предметной области, проанализированы понятия смысла, языка, зависимости слов, связанного текста, контекстного смыслоуточнения и введено понятие функционала смысловыразительности. Исследованы особенности текстов научно-технического стиля, главными из которых являются стремление к точному выражению смысла и зависимых слов к максимальной линейной близости. Проанализированы основные виды информационного поиска и моделирование в них семантики запросов. Показано, что в поиске на основе морфологического подобия функционала смысловыразительности формируется путем объединения смысловых значений слов запроса, что определяет его невысокую точность, а в дескрипторном поиске - пересечением смыслов термов запроса, точность его высока при четко организованном поисковом пространстве. Языковые средства в существующих видах поиска синтаксически бедны и фактически представлены лексикой.
Во втором разделе проанализированы основные элементы языка: словосочетание и предложение, определены их речевые роли, особенности и виды связей их элементов. Проанализирована подчинительная связь слов в предложении, которая выражается бинарным отношением непосредственного подчинения. В рамках данного отношения рассмотрена проективная структура предложения, которую отличает определенный порядок слов, в ее линейной развертке отсутствуют попарные пересечения дуг и ни одна из них не покрывает корень дерева зависимостей. В проективных предложениях зависимые слова образуют группы целостного смысла, представленные путями на дереве зависимостей. Проанализировано второе представление предложения, фрагменты которого образуют группы (отрезки) слов, связанные целостным смыслом и называемые составляющими. Составляющие могут вкладываться друг в друга, но никогда не пересекаются, а их совокупность, называемая системой составляющих, имеет иерархичную структуру. Она может представляться нотациями скобочной формы или дерева. Показано, что в проективных предложениях система составляющих и отношение непосредственного подчинения тесно связаны и представляют группы слов целостного смысла.
В третьем разделе разрабатываются и исследуются формализованные словно-зависимое и словно-шкальное представления предложений.
Словно-зависимое представление. Пусть а - текстовый фрагмент, в пределе предложение, М = {х1,х2, —,хп] - множество его слов, перенумерованных слева направо, а его синтаксический строй выражен бинарным отношением непосредствен-
ного подчинения Сп(ос) с М2. Элементами отношения - пары (главное слово, зависимое слово) и само отношение несимметрично, нерефлексивно и нетранзитивно.
Определение 3.1. Два слова х и у текстового фрагмента а связаны в цепочку зависимостей к (х,у), если существует последовательность слов х = хг -» х2 -» х3 -> ••• хп = у, где: -» х} - словосочетание, - главное слово и - зависимое.
Длина ос (х, у) обозначается как | « (х, у) | и равна числу входящих в нее словосочетаний. Для обозначения существования цепочки к (х, у) используется запись XI -» +Х], в которой знак —> + представляет транзитивное замыкание отношения непосредственного подчинения Сп+(ос). Цепочка зависимостей « (х, у) задает узкий смысл слова х, поскольку другие ее слова играют роль смыслоуточняющего контекста. Если слово х совпадает с корнем дерева или поддерева, то ос (х, у) представляет путь или его фрагмент на дереве зависимостей.
Множеством Хвост(х) называется совокупность слов, которыми заканчиваются цепочки зависимостей, начинающиеся со слова х, т.е. Хвост(х)={у | где: « (х,у)= х—*+у}. Хвост(х) определяет слова, которые могут участвовать в образовании смыс-лообразующего контекста для слова х.
Множеством Голова(у) назовем совокупность слов, которыми начинаются цепочки зависимостей, имеющие заключительным слово «у», т.е. Голова(у)-{х | где: ос (х,у) = х +у}. Множество Голова(у) представляет слова предложения, для которых слово у может являться смыслоуточняющим контекстом.
По виду отношения и матрице инцидентности М+ нельзя восстановить
цепочки зависимостей и их характеристические словные множества Голова(у) и Хвост(х). Для восполнения данного недостатка вводятся другие понятия.
Определение 3.2. Если пара е Ск(«), то соответствующей ей размеченной
к-1
к-1
парой назовем пару вида а множество Ск(«) вида Ск(«) =
назовем размеченной ¿-степенью отношения С (ос). _
Определение 3.3. Размеченным транзитивным замыканием отношения С+(«) назовем отношение вида ОЧа) = С4«) и С2(°0 и - и С" (ос) и ....
П-»0О
г
Для отношения С+(ос) определим размеченную матрицу инцидентности М+, у
которой на пересечении строки и столбца может быть записана 1р, называемая раз-
р
меченной единицей, если существует размеченная пара (х^) е с+(ос). Алгоритм. Построения размеченной матрицы инцидентности М+.
1. На основе матрицы М+ создать пустую матрицу М+.
2. Для отношения С(«) вычислить всех размеченные степеней отношений Ск(«) (к = 1,2,...) и построить размеченное транзитивное замыкание отношения с+(«).
3. По размеченному транзитивному замыканию отношения С+(«0 построить
^ р
матрицу М+ следующим образом: если существует пара е С+(«), то в пересечение строки x¡ и столбца х( вписать размеченную единицу 1р.
Алгоритм. Построение множества Хвост (х^ по б+(ос).
1. Задать слово х = х^ для которого выполняется построение характеристического множества Хвост(х().
2. Положить Хвост(х^ = 0.
3. Выделить в матрице М+ строку, соответствующую слову хь зафиксировав /.
4. Включить в Хвост(Х;) все слова, именующие столбцы матрицы М+, в соответствии с выражением Хвост^) = {х? | / = [1 ,..,п], М+ = 1р}.
Алгоритм. Построение характеристического множества Голова(х0 по С+(°с).
1. Задать слово у = х¡, для которого выполняется построение характеристического множества Голова(х).
2. Положить Голова^) = 0.
3. Выделить в матрице М+ столбец слову х^ зафиксировав
4. Включить в Голова(хд все слова, именующие строки матрицы М+, в соответствии с выражением Голова(ху) = {х? | £ = [1 ,..,п], М+(1,/) = 1р}.
Установление существования цепочки зависимости к (х, у) = х -* +у тривиально и выполняется по принадлежности слова х множеству Голова(у) или слова у -множеству Хвост(х). Построение цепочки к (х,у) в виде последовательности х = хг -* х2 -* х3 -»••• -» хп = у выполняется разбором «снизу вверх», начиная от слова у, или «сверху-вниз», начиная от словах
Алгоритм. Разбор «снизу-вверх». Заданы* и у, требуется построить х -> +у.
1. Определить существование х -* +у, для чего по размеченной матрице инцидентности М+ вычислить элемент М+(х,у).
2. Если М+(х,у) = 0, то цепочка зависимостей <х (х,у) отсутствует. Выход из алгоритма.
3. Если М+(х,у) = 1р, то продолжить.
4. Положить 1 = р и 1 = у.
5. Для всех значений I = [р,р — 1,р — 2, ...,0]:
5.1. В столбце М+О^.х^1) найти элемент М+(х[2,х[^"1) =1°.
5.2. Построить словосочетание х[2 -> х{+1 как часть цепочки х -» +у.
6. Результат. Цепочка зависимостей х -» +у.
При разборе «сверху-вниз» выявляется сочинительная связь по наличию в строке двух и более одинаковых элементов и строятся альтернативные пути разбора.
Формализованное словно-шкальное представление предложений. Отобразим предложение а = х1х2 ...хп на прямую, сопоставим каждому слову нумерованные элементарные отрезки, совместим первый отрезок с началом линии, последний - с ее концом. Прямую линию назовем словной шкалой, число т ее элементарных отрезков - длиной. Для двух отрезков 8 = [а... Ь] и а = [с ... с?] и (а < й) возможны отношения: отрезки 5 на несовместны, если с - Ь > 1; смежны, если с - Ъ = 1; пересекающиеся, если Ь — с > 0; а вложен в отрезок 6, если а < с и Ъ > с1.
Разбиением Я словной шкалы назовем ее представление совокупностью смежных отрезков, в общем случае разной длины. Множество всех разбиений конечно и его мощность зависит от длины т словной шкалы. Включим в это множество раз-
биение Я1, соответствующее наибольшему отрезку (словной шкале), и разбиение , представляющее элементарные отрезки. Разбиения и йд, являются единственными в данном множестве разбиений.
Проведем комбинаторную оценку множества всех разбиений словной шкалы, для чего построим нумерацию М(т) его элементов. Пусть заданы словная шкала длины т и множество ее разбиений. Сформируем на этом множестве классы разбиений по числу входящих в них отрезков таким образом, чтобы класс Л^ включал в себя только разбиения, построенные из £ отрезков, т.е. Л^ = {^¿1/^12» ■■•, йф..., Яф }. Очевидно, что для словной шкалы длиною т число таких классов также равно т, причем Лг = {/?г} и Лт = Упорядочим в нумерации
Ы(т) классы разбиений в порядке следования номеров ( = 1,2,3, ...,тп, тогда ее
схема примет следующий вид: Ы(т) = .....С).-.О' где О " поднумерацию
разбиений класса Л^
Способ построения поднумерации для класса разбиений Если / = 1, то класс Лг включает одно разбиение, представляющее всю словную шкалу. Припишем этому разбиению первый номер в нумерации и имя Если I = т, то класс Лт также представлен всего одним разбиением, которому припишем последний номер и имя Яд/. Поставим в соответствие разбиению Л( систему векторов 12, — Ль), в которой позиция каждой орты 1к слева направо соответствует к — му отрезку разбиения, а ее значение определяет длину к —го отрезка соответственно. В таком соответствии разбиению Яу 6 Л^ всегда соответствует числовой вектор вида {1( Л2 »•••«'/), поэтому соответствие между множеством разбиений и множеством векторов является взаимно однозначным. Перейдем от нумерации классов разбиений к нумерации векторов. Так, в нумерации М(т) поднумерация представлена вектором (т>, поднумерация - вектором <1,1,... Д), а поднумерация представлена системой векторов (1^, 12,....
Поскольку в классе Л^ для любого вектора Ц, Ц, --Л-, соответствующего разбиению Ку, справедливо соотношение + 12' Н-----Ь I/ = т для 1 < I < т, то в
классе Л1 существуют разбиения, содержащие отрезок максимальной длины = ш — I + 1 для данного класса, а соответствующие им вектора имеют вид:
<1,1.....1.....1 ,р;,>, ..., <1,1.....1.....р«,1,>, ..., <1.1.....Р1.....1,1.) , <1,Р;,... Д,... Д, 1,),
..., (р{, 1,...Д....,1,1,). В дальнейшем эти вектора назовем реперными для системы векторов класса разбиений Ль а параметр р^т) - характеристическим числом поднумерации Система векторов класса разбиений Л^ всегда содержит I реперных векторов. Будем считать, что в этом же порядке они входят в нумерацию системы
векторов, при этом вектор <1,1.....1.....1 ,р(.) - первый в поднумерации, а вектор
<рг, 1,... Д,... ,1,1, > - последний.
Для поднумерации построим правило перехода от г — го ее члена к С 4- 1 — му, для чего составим операцию развертки из последовательности действий:
1. Слева направо в векторе разбиения найти первую орту 1к > 0;
2. Представить орту в виде двух слагаемых 1к = 1 + (1к - 1);
3. Получить новое значение для смежной слева орты путем добавления к ней единицы: 1к_1 = 1]<_:1 + 1 и перенести его в орту 1)<-1 нового вектора разбиения 111+1;
4. Перенести второе слагаемое (1к — 1) в первую орту нового вектора;
5. Присвоить орте 1к нового вектора разбиения значение 1,1к = 1;
6. Значения других орт вектора разбиения перенести в вектор разбиения
Алгоритм. Построение поднумерации Ц) для класса разбиений 32г.
1. Построить реперный вектор вида: <1,1,..., 1,р1), где = т — I + 1, и считать его первым в поднумерации положить ) = 1 (счетчик поднумерации).
2. Применить к ) - му вектору поднумерации операцию развертки и новому вектору присвоить номер } = } + 1.
3. Пункт 2 выполнять до тех пор, пока результатом развертки не будет реперный вектор вида <рг, 1, ...,1,1).
В поднумерации для любого ]-го вектора выполняется соотношение
т = 1[ + 1( Ч-----1-1(. Если в нем закрепить порядок следования членов, то каждому
вектору поднумерации можно поставить во взаимно однозначное соответствие определенную конфигурацию такой суммы значений. Данная конфигурация в комбинаторике называется разложением натурального числа т на упорядоченную сумму из I натуральных слагаемых или композицией натурального числа т длины ¿.
Из определения операции развертки и алгоритма построения поднумерации (Д) следует, что между поднумерацией (Д) и композицией натурального числа т длины г существует взаимно однозначное соответствие. Если через обозначить число членов поднумерации, то его можно определить в виде |(')| = а число чле-
нов всей нумерации |М(т)| задается комбинаторной оценкой вида:
= Ш + Ш + - + Ш + - + и = + <2,-1 + - + с£:} = 2-1.
Пусть в нумерации Ы(т) на словной шкале заданы два таких разбиений и Щ (£ > У), что отрезки разбиения либо не совмещаются с отрезками разбиения Ду, либо вкладываются в них. Результат вложения запишем в виде: /?с(г,у) =./?,!- и назовем совмещенной формой разбиений.
Определение 3.4. Системой разбиения словной шкалы Ч*(т) назовем совмещенное разбиение всех классов нумерации Л?(т) вида Ч*(т) = Д2к ь Н-Ьйт,гдеКи. 6Я;.
В систему Ч,(гп) из каждого класса Л^ включается только один экземпляр, поэтому правило его выбора (Б-правило) задает уникальную конфигурацию системы разбиения. В то же время самих разбиений может быть множество.
Алгоритм. Построение системы разбиений Ч'5(т) по стратегии «сверху - вниз»
1. Для предложения а построить словную шкалу и разбиение
2. Для I = 2, ...,т по Б — правилу выбрать экземпляр разбиения из класса и включить его в систему разбиений ¥3(тп).
Индекс 5 в Ч*5(т) указывает на конкретное 5 — правило, а, используя разные правила, можно конструировать разные системы разбиений.
Разберем класс нормальных систем разбиений. Пусть для словной шкалы проективного предложения а построены множество разбиений, классы разбиений {зг1;3г2, ...,Лт) и соответствующая нумерация N(m).
Отрезки выбираемого из класса экземпляра разбиения имеют свойства:
1. Отрезок содержит слово, называемое главным словом отрезка, у которого входящая в него дуга зависимости исходит из слова, лежащего вне данного отрезка.
2. У всех других слов отрезка, кроме главного, все входящие дуги зависимостей исходят из слов, находящихся в пределах данного отрезка.
3. Главное слово отрезка разбиения Rx представляет сказуемое (аксиома). Пусть задано разбиение Riq £ включающее некоторый отрезок р. Из
определения системы разбиений в отрезок /? должны вкладываться отрезки разбиения Ri+l t в 3Zi+1. Операцией расщепления отрезка /? по главному слову хк назовем его деление на два смежных подотрезка по правилу:
1. В отрезке /? найти дугу зависимости, исходящую из главного слова хк ;
2. Рассечь перпендикулярной линией отрезок и дугу рядом с главным словом Хк так, чтобы между главным словом и линией не было других слов.
3. Отрезок ¡3 разделить по линии расщепления на два смежных подотрезка Pj и Р2, один из которых содержит главное слово отрезка р.
4. Отрезки Pi и р2 включить в разбиение Ri+1,t G
Операцию поясняет приведенный рисунок. ^^
Алгоритм. Построение системы разбиений. расцеплен« ГЪдчмтеъшя
1. Положить переменную i = 1.
2. Найти в разбиении Rj отрезок, имеющий исходящую из главного слова и заканчивающуюся словом в данном отрезке дугу зависимости.
3. Применить к отрезку операцию расщепления по найденной дуге зависимости, а по результатам операции построить разбиение Ri+1 и включить его в систему разбиений Ч'(а). Нарастить счетчик i = i + 1.
4. Повторять с пункта 2 до тех пор, пока в разбиении Ri+1 содержатся отрезки размерностью более одного слова.
Построенную систему разбиений словной шкалы предложения а будем называть нормальной системой разбиения и обозначать как Ч*(а). При переходе от разбиения Riq е Jli к разбиению Ri+1>t е всегда стоит выбор расщепляемого составного отрезка и удаляемой дуги. И если на выбор наложить определенные ограничения, то получим частные нормальные системы разбиения: lFRR(a), 'Plr^)* ^llC«). включающие в себя систему составляющих.
В четвертом разделе вводится и исследуется функционал смысловырази-тельности в нотации обратной польской записи (ОПЗ), разрабатывается формализованная процедура его вычисления на основе МП-автомата и конструируется его представление в виде семантической схемы.
Пусть задан фрагмент текста a=xix2~.xn и его словосочетание (х, - главное, независимое слова со множествами смысловых значений S(xf) и S(x;) соответственно). В словосочетании смысл уточняется контекстным смыслом что представляется выражением 5(хг)|5(Ху) = S(x,: xj), где стрелка указывает направле-
? А
С х. Хч J4 Хм... X X.
?, 1
С х- ... Хи XJ(Xw...X X.
ние зависимости слов. Поскольку контекст сужает смысл главного слова, то справедливо утверждение S(x,: xj) с 5(xf).
Введем операцию контекстного уточнения смысла П. Тогда контекстное уточнение смысла в словосочетании запишется как S(x[TxJ) = 5(Х;) Л 5(х7). Поскольку в словосочетании связь слов однонаправленная, то для нее справедливо неравенство S(x) Л 5 (у) Ф S(y) Л S(x). Для двух не связанных прямой зависимостью слов хну, всегда 5(х) л S(y) = 0 (аксиома) и S(x) л 5(х) = S(x).
Если во фрагменте предложения v главное слово, a xh х2,..., х„ его контекстные слова, то контекстной связкой слова v назовем запись вида v: {х1,х2,..., хп}. Сопоставив контекстную связку дереву зависимости, видно, что оно представляет собой узел v и его куст из узлов xt,x2,..., х„.
Пусть v, у и z слова фрагмента текста а контекстной связки v:{y,z}, тогда справедливо соотношение S(v: {у, z}) = S(v, у) П S{v, z). Обобщая результат на контекстную связку v:{x1,x2,...,xk), получим S(v: [х, х2,..., xfc}) = S(y, хг') П S(v,х2) П ...П5(17,xQ или в обобщем виде 5(х:(х1,х2, —,xk}) = Для
к=1 или к=0 соотношение сводится к S(v: {х}) = S(v: х) или S(v: 0) = S(v).
Представим функционал смысловыразительности в нотации ОПЗ. Операция контекстного смыслоуточнения определяется выражением S(v: у) = S(v) П 5(у) и его ОПЗ можно представить как S(y)S(v) О. А ОПЗ контекстной связки v. {х1,х2, ...,хп} можно представить в виде:
S(v: {х1( х2,..., xn}) = S(y7x^)S(y^) ... S(y7K) п П, где: S(v,Xi) = S^jSiv) П; S(v, х2) — S(x2)S(v) П;...; S(v, хп) = S(xn)S(v) П. Проведя подстановку, получим модифицированное представление контекстной связки в виде S(y:{x1,x2, ...,хп}) = S(xt)S(v) n S(x2)S(v) n ... S(xn)S(v) n n n.
12 n k=n
На дереве зависимостей дуги пометим символами операций контекстного смыслоуточнения Л, а узлы - операциями пересечения П.
Алгоритм. Обход дерева контекстной связки.
1. Обход выполняется слева направо с самого левого контекстного узла;
2. Для контекстного узла строится ОПЗ операции смыслоуточнения, которая задается дугой зависимости и главным словом.
3. После обхода контекстных узлов в строку-результат записываем операцию пересечения со значением счетчика операндов, равным числу контекстных узлов.
Обход дерева контекстной связки v: {x,y,z} показан ниже на рисунке, а его результат - ОПЗ контекстной связки v: {х, у, z} имеет вид:
ОПЗ: S(v:{x,y,z}) — S(x)S(v) П S(y)S(v) П 5(z)5(v) П 3 Л.
--.-- ■------------
12 3
Алгоритм. Построение ОПЗ фрагмента текста а.
1. Выполнить с левого нижнего узла слева направо последовательный обход дерева зависимостей а.
2. Для узла построить ОПЗ его контекстной связки. Для примера фрагмента предложения:
а = « международное признание образовательных программ российских вузов »
а Ь с d е f
ОПЗ функционала смысловыразительности имеет следующий вид:
ОПЗ: 5(я) = БСаЗБСЬ) Л 5(с)5(с1) Л 5(е)5(0 Л 5(с1) л 2 Л 5(Ь)П 2 П,
1 2 ' 3 _ к=2 к=г
Процесс вычисления ОПЗ функционала смысловыразительности представляется семантической схемой рисунка. Круглые вершины, имеющие только исходящие дуги, являются входами схемы, круглая вершина, не имеющая исходящей дуги, есть выход семантической схемы. Круглые вершины образуют ярусы. Ярус 0-уровня - входы семантической схемы. Ярус 1-уровня - семантические переменные, которые зависят от входов схемы. Ярус 2-уровня образуют вершины, значения которых формируют входы и переменные 1-уровня и т.д.
В пятом разделе представлены результаты экспериментов по исследованию информационного поиска, основу которого составляют теоретических результаты диссертационного исследования. Для этого разработаны специальный программный комплекс, схемы экспериментов, критерии сравнения фрагментов текстов на близость, решающие правила и процедуры определения близости, а также построены тестовая выборка из 10 и входной поток из 70 документов.
Формулировка задачи: из потока документов, подаваемых на вход программного комплекса, сформировать пакет документов (ВЫДАЧУ), который включает наиболее близкие по смыслу запросу пользователя документы.
Согласно схеме эксперимента пользователь формирует представляемый осмысленным и грамматически связанным текстом запрос. Для него формируется семантическая схема, представляющая образец сравнения. Программным комплексом обрабатываются документы входного потока, для их предложений строятся семантические схемы и оцениваются на близость семантической схеме запроса. На основе интегральных результатов сравнения по всему тексту принимается решение о включении документа в ВЫДАЧУ. В моделировании последовательно участвуют три, функционально отличных блока обработки информации: блок установления близости предложений текстов научно-техническому стилю и построение их формализованных нотаций; блок конструирования функционала смысловыразительности и семантических схем предложений документов; блок определения близости запроса и документов и формирования ВЫДАЧИ.
В первом блоке анализируются первичные тексты документов, строятся словные шкалы предложений и их системы разбиений, оценивается их принадлежность классу нормальных разбиений. Выделяются все нормальные разбиения, которые переводятся в формализованные нотации дерева и скобочной формы.
Второй блок обрабатывает формализованные нотации разбиений и по ним строит функционал смысловыразительности в нотации ОПЗ. Построенные выражения функционала смысловыразительности обрабатываются МП-процедурами для построения семантических схем предложений. Третий блок оценивает на близость семантические схемы предложений документов семантической схеме запроса и принимает решение о включении документа в ВЫДАЧУ.
Структура критерия сравнения семантических схем на близость. Пусть s4 и s, семантические схемы фрагментов текстов q а s соответственно. Тогда критерий близости <р данных семантических схем определим следующим образом <p{sq,st) = (sq = st), где (p{sq,st) 6 D и D = [0..1]. Здесь = -операцию установления близости, D- множество значений критерия близости. Если <p{sq, st) = 1, то имеет место полная близость. Если (p(sq,st) = 0, близость отсутствует.
Построим метод информационного поиска, который будет использоваться в качестве базы сравнения с семантическим поиском. Он основывается на определении релевантности как частоты встречаемости в документе слов запроса, которое распространено в практике информационного поиска. Тогда базовый критерий сравнения текстовых фрагментов на близость (фбаза) определим как отношение числа (р) совпадающих слов в запросе и фрагменте текста к числу (q) слов в запросе.
В семантической схеме элементом смысла является ее
текстового фрагмента. Представим тсемантак «v^«
дающих элементов смысла запроса (тj и фрагмента текста к общему числу (л) элементов смысла семантической схемы запроса:
Пусть для предложения s, вычислено значение критерия близости срц семантической схеме запроса q, тогда результаты сравнений по всему документу можно представить множеством пар вида {((q, s[), <р;)}. Разобьем шкалу D критерия близости ф на 4 подинтервала: [0..pi), [pi..p2), [Рг-Рз) и [Рз-1] так> чтобы выполнялось соотношение 0 < рг < р2 < р3 < 1 и будем считать, что интервал [0..pi) соответствует «слабой» близости, [Pi-Рг) - «относительно слабой» близости, [Р2--Рз) -«достаточно сильной» близости, а [рз-Л] — «сильной» близости. Если для пары (q,s,) значение ф, попадает в некоторый подинтервал, то ей приписывается значение близости данного подинтервала.
Для документа создается «Таблица близостей» и в нее заносятся данные о числе встречаемости разных видов близостей по всему документу (fCJia6a*> Относительная, ^достаточная. Сильная)- Кроме того, на включение документа в ВЫДАЧУ наложено параметрическое ограничение (порог). При пороге п документ включается в ВЫДАЧУ при числе встречаемости близостей не менее п. В экспериментах опытным путем подобраны величины порогов: 3, 5 и 8. С учетом встречаемости близостей и порогов система правил принятия решений принимает следующий вид:
^ ((^слабая ^{^достаточная +f^.«..))&(fcn.6..>fo™oo,T^.H.»)&(fo.»6»»2porog) THEN СемБл:="Спабая"; IF ((Uoc.TMb«,.>(f„oCT,IoH„. + fc,„b»,.))&(foT.o„^b.„>fc,6,.))&(fo™ocHr„b„,>2p0r0g) THEN СемБл:="Относительная"; IP ((^достатомм»я^слабая + foT,oofr^b.,.)) & )&(fflocr,TOT.„2porog) THEN СемБл:="Достаточная";
IF «f™„„>(f„,6.. + for»ocT«,.«..))& (f™nb»«>fn0CT.T04„„) )&(f„„„„„>porog) THEN СемБл:="Сильная".
фрагмент, представленный на рисуш ческом поиска критерий сравнения тывать степень совпадения семанти1
Проверка документа по системе решающих правил реализуется процедурой Procedure Сем_близость (D, porog, СемБл), где Сем_близость - имя процедуры, D -документ, porog - параметрическая переменная, СемБл возвращаемая переменная со значением близости "Слабая", "Относительная", "Достаточная" или "Сильная", а качество ВЫДАЧ определяется отношением числа (т) документов из контрольной выборки в ВЫДАЧЕ к объему (п) ВЫДАЧИ. Данные для разных порогов и критериев близостей по базовому и семантическому поискам сведены в таблицу ниже.
Виды запросов Значения порогов Качество ВЫДАЧИ для критерия Фбата Качество ВЫДАЧИ для критерия фсемантик
0,75-1,0 0,5-1,0 0,25-1,0 0,1-1,0 0,75-1,0 0,5-1,0 0,25-1,0 0,1-1,0
Запрос_1 3 0,20 0,19 0,13 0,13 0,636 0,833 0,625 0,476
5 0,24 0,22 0,16 0,14 0,778 0,909 0,769 0,625
8 0,14 0,07 0,04 0,03 0,500 0,571 0,455 0,357
Запрос_2 3 0,14 0,14 0,13 0,12 0,727 0,769 0,667 0,526
5 0,20 0,19 0,17 0,13 0,750 0,833 0,714 0,588
8 0,11 0,06 0,05 0,04 0,667 0,750 0,600 0,500
ЗапросЗ 3 0,17 0,12 0,10 0,10 0,583 0,714 0,625 0,556
5 0,16 0,17 0,14 0,12 0,800 0,833 0,769 0,625
8 0,08 0,06 0,04 0,05 0,429 0,556 0,455 0,500
Усредненный запрос 3 0,17 0,15 0,12 0,11 0,647 0,769 0,638 0,517
5 0,20 0,19 0,15 0,13 0,778 0,857 0,750 0,612
8 0,11 0,06 0,04 0,04 0,526 0,625 0,500 0,447
Из таблицы видно, что качество ВЫДАЧ семантического поиска в разы превосходит качество ВЫДАЧ базового метода для всех запросов и значений порогов. Особенно преимущества семантического поиска проявляются при различении документов одной терминологии, когда базовый метод практически не работает.
В заключении формулируются основные результаты, полученные в диссертационной работе.
Основной результат диссертационной работы заключается в создании новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использовании для повышения эффективности информационного поиска, отличительной особенностью которого является учет семантической составляющей текстовой информации.
Работа содержит следующие новые научные результаты:
1. Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность.
2. Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить
семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость.
3. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска.
Список опубликованных работ по теме диссертации в изданиях ВАК
1. Вишняков Р.Ю. Об одном подходе к интеллектуализации информационно-поисковых систем // Известия ТРТУ. Тематический выпуск, «Интеллектуальные САПР». — Таганрог, изд-во ТРТУ, 2007, №1 (73) — с. 170-173.
2. Вишняков Р.Ю., Вишняков Ю.М. Семантически ориентированная метамо-дель предложения научно-технического текста. // Журнал «Информатизация и связь», №3,2011, с.17-19.
3. Вишняков Р.Ю., Вишняков Ю.М. Об одной метамодели предложения естественного языка для семантической интерпретации научно-технических текстов. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные САПР». - Таганрог: Изд-во ЮФУ, 2011, №7 (120), с.163-167.
4. Вишняков Р.Ю., Вишняков Ю.М. Словная шкала, операции над отрезками, разбиения. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные САПР». - Таганрог: Изд-во ЮФУ, 2012, № 2 (127), с. 198-204.
Основные публикации по теме диссертации
5. Вишняков Ю.М., Вишняков Р.Ю. Проблемы семантического информационного поиска // Труды международных научно-технических конференций «Интеллектуальные системы» (AIS'06) и «Интеллектуальные САПР» (CAD-2006). Научное издание в 3-х томах,— М.: ФИЗМАТЛИТ, 2006, Т.2. — с.308-314.
6. Вишняков Р.Ю. Интеллектуальные информационно-поисковые системы. Лингвистический анализ // Электронный Интернет-журнал «Перспективные информационные технологии и интеллектуальные системы», №4(28), 2006, — с.37-42, http://pitis.tsure.ru/Journal28.html
7. Вишняков Р.Ю. Проблема интеллектуализации поисковых систем //Тезисы докладов VIII Всероссийской научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектронные системы и системы управления». — Таганрог, изд-во ТРТУ, 2006. — С. 246-247.
8. Вишняков Р.Ю. Интеллектуальные информационно-поисковые системы. Лингвистический анализ и обработка текстовой информации // Материалы трудов IV Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление». — Таганрог, изд-во ТРТУ, 2006. — С. 60-66.
9. Вишняков Р.Ю. Информационный поиск, системы анализа и обработки текстовой информации // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки». — Таганрог, изд-во ТТИ ЮФУ, 2007, — с. 39-42.
Ю.Вишняков Р.Ю. Поиск и обработка данных. Точность, случайность, нечеткость // Сборник трудов Всероссийской научной школы-семинар молодых ученых,
аспирантов и студентов «Интеллектуализация информационного поиска, скантехно-логии и электронные библиотеки». — Таганрог: изд-во ТТИ ЮФУ, 2007, — с. 42-43.
П.Вишняков Р.Ю. Проблемы аппарата семантического информационного поиска. // Сборник трудов V-ой Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования». — Таганрог: изд-во ТТИ ЮФУ, 2008, — с. 43-48.
12. Вишняков Р.Ю. Лингвистическое обеспечение информационного поиска и его смысловыразительность.// Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки». — Таганрог: изд-во ТТИ ЮФУ, 2008. — С. 137-143.
13. Вишняков Р.Ю. Смысловыразительность и проблемы семантического информационного поиска // Труды международных научно-технических конференций «Интеллектуальные системы» (AIS'08) и «Интеллектуальные САПР» (CAD-2008). Научное издание в 3-х томах. — М.: ФИЗМАТЛИТ, 2008.
14. Вишняков Р.Ю. Построение предметных словарей // Сборник трудов VI Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление». — Таганрог изд-во ТТИ ЮФУ, 2008. — С. 13-19.
15. Вишняков Р.Ю. Проблемно-ориентированный интегратор информационных ресурсов (POINTER) // Неделя науки - 2009: Материалы научных работ. - Таганрог: Изд-во ТТИ ЮФУ, 2009. - С.34-36
16. Вишняков Р.Ю., Марченко В.А. Проблемно-ориентированная система поиска технической документации // Сборник трудов VII Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системный анализ и управление". — Таганрог: изд-во ТТИ ЮФУ, 2009. — С. 9-14.
17. Вишняков Р.Ю. Лингвистический анализ и обработка текстовой информации на основе дискурсивных свойств естественных языков и их применение в информационном поиске // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки». — Таганрог: изд-во ТТИ ЮФУ, 2010, —С. 55-57.
18. Вишняков Р.Ю., Марченко В.А. Особенности реализации хранилища данных системы поиска технической документации // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки». — Таганрог: изд-во ТТИ ЮФУ, 2010. — С. 82-83.
19. Вишняков Р.Ю. Разработка дискурсивной модели текста на основе нечеткой логики // Сборник трудов VIII Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление». — Таганрог: изд-во ТТИ ЮФУ, 2010. — С. 23-27.
20. Вишняков Р.Ю., Гриненко P.A., Жуков В.В. Поточная система обработки, классификации и поиска типизированных данных на основе КА // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов
«Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки». — Таганрог: изд-во ТТИ ЮФУ, 2010. — С. 58-59.
21. Вишняков Р.Ю., Вишняков Ю.М. Об одной модели семантической классификации методов информационного поиска. // Информатика, вычислительная техника и инженерное образование. - Таганрог: Изд-во ЮФУ, 2011, № 4(6), с.21-24
22. Вишняков Р.Ю. Метамодель предложения научно-технических текстов, ориентированная на семантическую интерпретацию. // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках». — Таганрог: изд-во ТТИ ЮФУ, 2011. — С. 46-51.
23. Вишняков Р.Ю. Использование нотации обратной польской записи для контекстного уточнения смыслов фрагментов текстов. // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках». — Таганрог: изд-во ТТИ ЮФУ, 2012. — с. 106-112.
24. Вишняков Р.Ю. Контекстное уточнение смысла слов в связанном текстовом фрагменте. // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках». — Таганрог: изд-во ТТИ ЮФУ, 2012, —с. 112-116.
Личный вклад автора в работах, написанных в соавторстве
[2,3] —учет особенностей текстов научно-технического стиля; [4] — для словных шкал операции над отрезками и способы построения систем разбиений; [5] - анализ трудностей в семантической обработки текстов; [16] -повышение эффективности поиска за счет особенностей научно-технической документации; [18] - подход к организации хранилища данных научно-технической документации; [20] - подход к поиску и классификации типизированных данных на основе конечных автоматов; [21] -классификация методов поиска на основе смысловыразительности языковых средств лингвистического обеспечения.
Технологический институт Южного федерального университета в г. Таганроге
347928, Ростовская область г. Таганрог, пер. Некрасовский 44.
Оглавление автор диссертации — кандидата технических наук Вишняков, Ренат Юрьевич
Введение.
1 Анализ предметной области.
1.1 Смысл, язык и семантическая интерпретация текстов.
1.1.1 Феномен и особенности языка.
1.1.2 Анализ грамматических особенностей языка.
1.1.3 Характерные особенности текстов научно-технического стиля.
1.1.4 Определение функционала смысловыразительности предложения.
1.2 Анализ смысловыразительности языковых средств лингвистического обеспечения информационного поиска.
1.2.1 Обработка текстов. Терминология и основные понятия.
1.2.2 Обзор методов информационного поиска и его лингвистического обеспечения.
1.2.3 Оценка смысловыразительности языковых средств информационного поиска.
1.3 Выводы.
2 Анализ предложений текстов научно-технического стиля.
2.1 Словосочетание, предложение и связи их элементов.
2.2 Подчинительная связь и ее представления.
2.2.1 Отношение непосредственного подчинения и его нотации.
2.2.2 Проективное отношение непосредственного подчинения.
2.3 Представление предложений в виде системы составляющих.
2.3.1 Отрезочное представление предложения.
2.3.2 Связь системы составляющих и проективного отношения непосредственного подчинения.
2.4 Выводы.
3 Формальные представления предложений текстов научно-технического стиля.
3.1 Разработка формализованного словно-зависимого представления предложения.
3.1.1 Цепочка зависимостей, ее свойства и характеристические множества.
3.1.2 Характеристические словные множества, размеченное отношение непосредственного подчинения и их использование для построения цепочек зависимостей.
3.2 Разработка формализованного словно-шкального представления предложения.
3.2.1 Словная шкала, операции над отрезками, разбиения.
3.2.2 Система разбиения словной шкалы, ее свойства и стратегии построения.
3.2.3 Дерево системы разбиения.
3.2.4 Скобочная форма системы разбиения.
3.2.5 Расщепление отрезка по главному слову, нормальная системы разбиений.
3.2.6 ¿-нормальная и Я-нормальные системы разбиения.
3.3 Выводы.
4 Семантические схемы предложений на основе функционала смысловыразительности.
4.1 Контекстное уточнение смысла слов в связанном текстовом фрагменте.
4.2 Использование нотации обратной польской записи для контекстного уточнения смыслов фрагментов текстов.
4.3 Процедуры и алгоритмы вычисления функционала смысловыразительности в нотации обратной польской записи.
4.4 Семантическая схема функционала смысловыразительности.
4.5 Выводы.
§ Экспериментальное исследование.
5.1 Состав программного комплекса и схема экспериментов.
5.2 Сравнение семантических схем на близость.
5.2.1 Общая структура критерия сравнения на близость.
5.2.2 Базовый критерий сравнения близости.
5.2.3 Семантический критерий сравнения на близость.
5.3 Решающие правила, формирование ВЫДАЧИ.
5.4 Результаты экспериментов, анализ, сравнение.
5.4.1 Начальные условия и параметры.
5.4.2 Эксперименты по базовому критерию близости ф6аза.
5.4.3 Эксперименты по семантическому критерию близости фсеМантик.
5.5 Выводы.
Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Вишняков, Ренат Юрьевич
Глобальная сеть Интернет и компьютерные технологии представляют сегодня один из важнейших факторов научно-технического прогресса. Его отличительным признаком является целостно сформированное и интенсивно расширяющееся информационное пространство, которое порождает совершенно новые потребности и требования к технологиям обработки, представления и поиска информации. В настоящее время все публикуемые бумажные документы оцифровываются и размещаются в электронных хранилищах различного назначения, активно используются многочисленные электронные библиотеки и электронные архивы, поисковые машины и сервисы. По некоторым оценкам объем глобальных информационных ресурсов ежегодно увеличивается экспоненциально [8].
На многочисленных конференциях и форумах ведется активное обсуждение путей повышения эффективности работы с большими объемами разнородной информации. В этом круге вопросов выделяют и ставят на особое место обработку текстовой информации и связанные с ней прикладные задачи. Так, текстовая обработка напрямую связана с информационным поиском и классификацией документов, автореферированием, автоаннотированием, компьютерным переводом, диалоговыми системами и пр., а сама она представляет собой важный раздел области искусственного интеллекта. Следует выделить ряд работ, посвященных разработке методов решения различных задач, непосредственно связанных с текстовой обработкой.
Подходы и модели формализации семантики и ее компьютерной обработки, а также теоретические работы в области естественных языков представлены в трудах Landauer Т., Foltz P., Laham D. [45]; Saltón G., Allan J., Singhai A. [55]; Баженовой Е.А. [74, 75]; Большаковой Е.И. [78, 79]; Васильевой Н.Э. [80]; Гав-риловой Т.А. [116]; Гладкого A.B. [117]; Ермакова А.Е. [123, 125,126]; Ефимен-ко И.В. [127]; Леонтиевой А., Кагирова И. [142]; Кучуганова В.Н. [138, 139, 140]; [143]; Мельчука И.А. [145]; Митрофановой О.Д. [146]; Найхановой Л.В., Евдокимовой И.С. [147], Налимова В.В. [148]; Николаева A.M. [152]; Рубашкина В.Ш. [157]; Рыбакова Ф.И., Руднева Е.А., Петухова В.А. [158]; Рябцева Н.К. [159]; Севбо И.П. [161, 162]; Тестелец Я.Г. [167]; Харламова A.A., Ермакова А.Е., Кузнецова Д.М. [168]; Чугреева В.Л., Яковлева С.А. [171, 172, 173]; Шемякина Ю.И. [174]; Хомского Н. [176, 177].
Также следует отметить ряд фундаментальных трудов, составляющих теоретическую базу языков программирования и методов трансляции, перешедших в разряд классических. Это работы Ахо А. и Ульмана Дж. [70, 71], Гриса Д. [119], Льюиса Ф., Розенкранца А., Стирнза Р. [144]и многих других.
Основы информационного поиска наиболее полно изложены в работах Черного А.И. [170]; Сэлтона Дж. [56, 57, 58, 59,165, 166]; Кристофера Д. Ман-нинга [132]. Различным методам информационного поиска посвящены работы авторов Aggarwal С. С., Al-Garawi F., Yu P. S. [1], Agichtein E., Lawrence S., Gravano L. [2]; Allan J. [3]; Allison P. [4]; Baeza-Yates R., Ribeiro-Neto B. [6]; Baker D.L., Callum A.K. [7]; Brown E. [9]; Callan J. [10, 11]; Chakrabarti S [12, 13]; Cho J. [14, 15, 16]; Graswell N., Cohn D., Chang H. [17, 18], Hartman D. [19, 27], Dreiinger D. [20] Dumais S. [22], Finkelstein L. и др. [23], Foltz P.W. [24], Gruber T. [26], Hawking D. и Craswell N. и др. [30, 31, 32], Henzinger M., Heydon A., Mitzenmacher M., Najork M. [33, 34]; Heydon A., Najork M. [35], Huang L., Hemmje M., Neuhold E. J. [39],Yang Y. [41]; Kilander F., Fehraeus E., Palme J. [42]; Lawrence S. [46, 47, 48]; Melnik S., Raghavan S., Yang В., Garcia-Molina H. [50], Patel A., Petrosjan L., Rosenstiel W. [54]; Moulinier L.A. [52]; Savoy J., Picard J. [61]; Shivakumar N., Garcia-Molina H. [63]; Singhal A. [64, 65, 66]; Turtle H.R. [67]; Yang Y., Pederson J. [68]; Сэлтона Дж. [55, 56, 57, 58, 59, 60, 165, 166], В.И. Шабанова [], А.Е Ермакова [123, 124, 125], И.Е. Кураленка [44, 134, 135, 136, 137], И.С. Некрестьянова [149, 150, 151]; Гринберга И.В., Ли Г. [118]; Дубин-ского А.Г. [121, 122]; Иванова В.В., Некрестьянова И.С., Пантелеева Н. [128]; Карташева Е.И. [129]; Кристофера Д. Маннинга, Рагхавана Прабхакар, Шютце Ханриха [132] и других.
Тематические классификации, связанные с выделением и извлечением информационных объектов, определением их статистических, лингвистических и семантических характеристик, построением семантико-тематической структуры документов и тематик, тематической фильтрацией и ранжированием документов и пр. разрабатываются в работах Amento В., Terveen L., Hill W. [5]; Hatano К., Sano R., Duan Y. Tanaka K. [28]; Hatzivassiloglou V., Gravano L., Maganti A. [29]; Hawking D., Craswell N. [30]; Merkl D. [51]; Yang Y.[41], Molinier L. [52]; Nekrestyanov I., O'Meara T., Romanova E. [53]; Sebastiani N. [62]; Zhang D., Dong Y. [69]; Андреева A.M. и Березина Д.В. [72, 73]; Берштейна Jl.C. [76, 77]; Добрынинина В.Ю. [120]; Романова Е.В., Романова М.В., Некрестья-нова И.С. [156]; Семенова С.Ю. [163]; Хорошевского В.Ф [169].
Различным аспектам обработки текстовой информации посвящаются известные профессиональные форумы, среди которых следует отметить:
• международные конференции Российской ассоциации искусственного интеллекта;
• международные научно-технические конференции «Интеллектуальные САПР»;
• Всероссийскую конференцию "Электронные библиотеки" (RCDL);
• семинар по компьютерной лингвистике "Диалог".
Также в Таганрогском технологическом институте Южного федерального университета международной лабораторией ELDIC (Educational Laboratory of Distant Informational Communications) проводится ежегодная Всероссийская школа-семинар «Семантическая интерпретация и интеллектуальная обработка текстов и их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках».
Проблемам информационного поиска посвящены такие форумы как:
• WWW (World Wide Web) Conférence - специально организованная конференция по решению задач, связанных с Интернет; TREC (Text REtrieval Conférence) - цикл конференций организованный под эгидой NIST (National Institute for Standards and Technology) - одного из авторитетных органов стандартизации информационных технологий в США;
• SIGIR (Special Interest Group on Information Retrieval) - цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) -международной группой специалистов по информационному поиску.
• РОМИП - ежегодный Российский семинар по оценке методов информационного поиска и ряд других.
Оценивая положение дел в области обработки текстовой информации в целом, следует отметить, что значимость и роль исследований, направленных на разработку новых методов обработки и представления информационных потребностей пользователей с акцентом на семантическую составляющую сильно актуализируется. Так, в информационном поиске ситуация такова, что улучшение эффективности известных подходов, основанных на частотных свойствах слов, уже не приносит ощутимого эффекта, а решения предлагается искать в выделении и обработке семантической составляющей документов. В особенности, это касается различения документов из одной предметной области, использующих одну и ту же терминологию и слова, что представляет особо трудный случай для частотного критерия релевантности. Трудности такого же порядка наблюдаются в автореферировании, диалоговых системах, компьютерном переводе, принятии решений и пр. Все это свидетельствует о том, что проблема обработки и понимания естественного языка выдвигается на передний план, а повышение эффективности обработки текстовой информации видится в их семантической интерпретации.
Отсутствие универсальных решений в обработке семантики связаны с внутренними особенностями естественных языков. Так, слова и предложения естественного языка обладает многозначностью, которая придает им, с одной, стороны универсальность, облегчая его использование для описания разных явлений, но в то же время создает значительные трудности для семантической интерпретации. Многозначность языка выражается в омонимии, когда один и тот же текст может иметь различные семантические значения, и в синонимии, когда различные тексты могут выражать одно и то же семантическое значение. Семантическую многозначность текстов человек снимает путем выделения самого вероятного (правдоподобного) варианта разбора предложений, но в то же время он не отбрасывает многообразия и других, менее вероятных смысловых вариантов интерпретации, сопоставляя их с общим контекстом всей разбираемой текстовой информации и своим внутренним знанием.
Обобщая выше сказанное, можно утверждать, что в текстах естественного языка морфология и синтаксис выступают средствами оформления семантики, а предметная область определяет поле понятийных значений, обеспечивающих семантическую интерпретацию текста. На интерпретацию семантики также влияют стилистические приемы оформления текстов в различных областях культурной деятельности. Так, в области литературы главенствует так называемый художественный стиль, которому в большей степени свойственна метафоричность, образность, ритмика и поэтичность. В то же время в текстах научных работ используется научно-технической стиль изложения, в котором смысл выражается предельно точно и сухо, а само изложение носит вид правдоподобного рассуждения. Термины, слова и предложения текстов научных работ стремятся всегда к точным и однозначным смысловым значениям [78, 79, 147, 148]. Это многообразие стилей изложения также определяет отсутствие универсальных решений в области семантической интерпретации текстов, определяя в каждой предметной области разработку собственных подходов.
Настоящая диссертационная работа выполнена в рамках данной проблематики и посвящена разработке и исследованию формализованных представлений и семантических схем предложений документов научно-технического стиля и их использованию для повышения эффективности информационного поиска.
Цель диссертационного исследования - разработка и исследование новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использование для повышения эффективности информационного поиска.
Объектом исследования являются особенности текстов документов научно-технического стиля, формализованные представления и семантические схемы предложений, эффективность информационного поиска.
Научные задачи, решаемые в диссертации:
1. Проводится анализ естественного языка и его грамматики, особенностей научно-технического стиля, существующих методов формализации представления предложений. Определяется функционал смысловыразительности и анализируется лингвистическое обеспечение различных видов информационного поиска.
2. Разрабатывается и исследуется формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.
3. Разрабатывается и исследуется формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, ее разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, системы разбиений. Конструируются алгоритмы построения систем разбиений и нотации их представления.
4. Определяется и исследуется понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла, конструируется обратная польская запись функционала смысловыразительности, процедуры ее вычисления и представления в виде семантических схем.
5. Разрабатывается критерий сравнения фрагментов текстов на близость, процедуры формирования ВЫДАЧ, а также проводится экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.
Научная новизна. В результате проведённых диссертационных исследований были разработаны:
1. Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность.
2. Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость.
3. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска.
Основные положения, выносимые на защиту:
1. Формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей
2. Формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, система разбиений, ее нотации, правила и алгоритмы конструирования.
3. Функционал смысловыразительности и его представление в нотации обратной польской записи, способы ее получения и вычисления, семантическая схема предложения.
4. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ.
Практическая ценность работы. Разработанные в диссертации методы и алгоритмы информационного поиска на основе формализованных представлений и семантических схем предложений текстов научно-технического стиля используются в научно-исследовательских работах (г/б НИР №12050, 12456, 37.00.55) лаборатории ELDIC (Education Laboratory of Distant Informational Communications) и учебном процессе по магистерской программе «Интеллектуальные системы» факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация работы. Основные результаты работы докладывались на:
• Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление», (Таганрог, 2006, 2008, 2009, 2010, 2011 гг.);
• Международной конференции по системам искусственного интеллекта при поддержке IEEE AIS'06, AIS'08, AIS' 11 (Дивноморское, 2006,2008,2011гг.);
• Всероссийской научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления», (ТРТУ, 2006 г.).
• Всероссийской научной школе-семинаре молодых ученых аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки (Таганрог, 2007, 2008, 2009, 2010 гг.).
• Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Таганрог 2008).
• Всероссийской научной школе-семинаре молодых ученых аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках» (Таганрог 2011, 2012 гг.).
Публикации. По материалам диссертации опубликовано 24 печатных работы, в том числе 4 статьи в изданиях из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объём работы. Диссертация состоит из введения, пяти разделов, заключения и списка литературы. Основная часть работы изложена на 141 странице машинописного текста, включает 58 рисунков и 21 таблицу.
Заключение диссертация на тему "Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска"
5.5 Выводы
В разделе проводится экспериментальное исследование основных теоретических положений и результатов диссертационного исследования на примере задачи информационного поиска документов из области профессиональной аккредитация образовательных программ вузов. Поиск выполняется относительно запроса пользователя и имеет следующую формулировку: из входного потока документов сформировать пакет (ВЫДАЧУ) документов, которые наиболее близки по смыслу запросу пользователя, и оценить ее качество.
Для проведения экспериментов разработан специальный программный комплекс, построены схемы экспериментов, сформированы обучающая выборка, входной поток документов и проведены эксперименты для базового частного и семантического методов информационного поиска. Сводные данные по обеспечению экспериментов имеют следующий вид:
1. Тестовая выборка состоит 10 работ и используется для настройки программного комплекса. Эти документы также включается случайным образом во входной поток данных, который состоит из 70 документов.
2. В процесс моделирования на исходных текстах строятся словные шкалы предложений и их системы разбиений, анализируется их принадлежность классу нормальных разбиений, нормальные разбиения переводятся в формализованные нотации дерева и скобочной формы, по которым формируется функционал смысловыразительности в нотации обратной польской записи и проводится его обработка МП-автоматными процедурами. В результате формируются семантические схемы предложений текстов, которые оцениваются на близость семантической схеме запроса пользователя, и по результатам сравнения принимается решение о включении документа в ВЫДАЧУ.
3. Разработана структура критерия сравнения семантических схем предложений на близость и построено два его вида: базовый, учитывающий вхождение слов запроса в тексты, и семантический, учитывающий совпадение семантических схем. Первый критерий близости положен в основу базового метода поиска, который взят за основу сравнения, а второй критерий положен в основу семантического метода поиска.
4. Для критерия близости построена базовая шкала, система решающих правил и процедура определения значения близости Бет В текстовых фрагмен по типу "Слабая", "Относительная", "Достаточная" или "Сильная". Для базовой шкалы построены подинтервалы близостей и составные условия включения документов в ВЫДАЧУ, которые составили общую платформу экспериментов.
Результаты экспериментов по формированию ВЫДАЧ для разных запросов, порогов встречаемости и подинтервалов близостей базового и семантического методов поиска и их сравнительный анализ показывают следующее:
- Семантический метод поиска по качеству ВЫДАЧ в разы превосходит базовый метод, что выражается в более компактных ВЫДАЧАХ, содержащих документы тестовой выборки. Это обстоятельство прослеживается на всех интервалах близостей.
Преимущества семантического метода поиска особенно проявляется в различении документов, использующих одну и ту же терминологическую базу. Этот случай является особенно тяжелым для базового метода, который практически нечувствительным к документам, различающимся семантически, но использующим одни и те же слова.
Заключение
Увеличение объема информационных ресурсов, появление различного рода электронных хранилищ данных различного назначения, активное использование электронных библиотек и архивов, поисковых машин и сервисов порождают совершенно новые потребности и требования к технологиям обработки, представления и поиска информации. Используемое определение релевантности документа по встречаемости слов уже не удовлетворяет пользователей по точности поиска, что особенно ощущается в профессиональных областях, использующих одну и ту же терминологию.
Сегодня повышение качества обработки текстовой информации связывают с разработкой новых подходов, основанных на семантической интерпретации текстов. Однако отсутствие хороших решений в этой области связано с особенностями естественного языка, и в первую очередь, с отсутствием приемлемых представлений фрагментов текстов и их семантики. Диссертационное исследование выполнено в рамках данного направления и посвящено разработке и исследованию формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использованию в информационном поиске для повышения его эффективности.
В диссертации получены следующие новые научные результаты:
1. Определена терминология в области обработки текстов, проанализирован феномен естественного языка, его грамматика, особенности текстов документов научно-технического стиля и введено понятие функционала смысловы-разительности. Проведена оценка смысловыразительности языковых средств лингвистического обеспечения различных видов информационного поиска, а также выполнен анализ существующих методов формализации и представления предложений текстов на основе грамматических моделей зависимостей и системы составляющих.
2. Разработано формализованное словно-зависимое представление предложения в виде размеченного транзитивного замыкании отношения непосредственного подчинения. Введено понятие цепочки зависимостей, ее характеристических словных множеств и размеченных степеней отношений непосредственного подчинения, а также сконструированы алгоритмы восстановления цепочек зависимостей по размеченному транзитивному замыканию отношения непосредственного подчинения.
3. Разработано формализованное словно-шкальное представление предложения в виде системы разбиения специального вида словной шкалы, в рамках которой определено понятие словной шкалы, ее разбиений на непересекающиеся классы отрезков, способ нумерации множества разбиений и выведены аналитические выражения комбинаторных мощностных оценок.
4. Для формализованного словно-шкального представления предложения на множестве разбиений словной шкалы введено понятие совмещенного разбиения и системы совмещенных разбиений Ч^т) и показано, что словной шкале может соответствовать более одной системы разбиений, задаваемой Б — правилами включения в систему разбиений Ч'(т) экземпляров из классов разбиений. Сконструированы обобщенные алгоритмы построения системы разбиений, использующие стратегии «сверху-вниз» и «снизу-вверх», и доказана их результативность.
5. Для систем разбиений построены их представления в виде нотации дерева и различных видов скобочных форм. Показано, что нотацию типа дерева отличает наглядность отображения иерархичности системы разбиений, а скобочные формы - линейный порядок размещения вложенных отрезков разбиений различных классов.
6. Сформулировано специальное 8 - правило расщепления отрезков словной шкалы по дуге главного слова и на его основе сконструирован алгоритм построения нормальной системы разбиений Ч'(а). Показано, что нормальная система разбиений Ч'(сх) является обобщением системы составляющих предложения.
7. Для нормальных систем разбиений определены частные БЬ- и БЯ -правила расщепления отрезков по дугам зависимости главного слова отрезка, в которых осуществляется удаление первой слева или справа таких дуг зависимостей соответственно. Использование данных правил порождают частные случаи нормальных систем разбиения ^(а) и ^(а) соответственно, у которых на каждом шаге их построения осуществляется выбор расщепляемого первого составного отрезка слева и справа соответственно. Введены понятия IX, ЬЯ, ЯЬ, ИИ - нормальных систем разбиения, которые представляют комбинацию выбора расщепляемого составного отрезка и соответствующего БЬ- и БЯ -правила расщепления.
8. Определены понятия контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла, которая задана на множестве смысловых значений главного слова контекстной связки. Для контекстной связки построены базовые соотношения для вычисления смысла ее главного слова.
9. Для функционала смысловыразительности введена нотация обратной польской записи, для чего сконструированы представления в обратной польской записи операции контекстного уточнения смысла и уточнение смысла контекстной связки, а также с учетом особенностей данных операций модифицировано дерево зависимостей. Для модифицированного дерева зависимостей сконструирована процедура его обхода, результатом которой является обратная польская запись функционала. Показано, что основные свойства обратной польской записи функционала смысловыразительности, связанные с линейным порядком ее вычисления за один проход слева направо и отсутствием скобок, в нотации обратной польской записи полностью сохранены.
10. Определена процедура вычисления обратной польской записи функционала смысловыразительности, в которой для хранения промежуточных смысловых значений введены временные переменные. Для временных переменных построены правила высвобождения. Разработана формальная процедура вычисления обратной польской записи на основе МП-автомата и построено его полное описание виде решающей таблицы.
11. Разработана структура представления функционала смысловыразительности предложения в виде семантической схемы, которая используется для семантического сравнения фрагментов текстов.
12. Разработана структура критерия сравнения семантических схем предложений на близость и построено два его вида: базовый, учитывающий вхождение слов запроса в тексты, и семантический, учитывающий совпадение семантических схем. Первый критерий близости положен в основу базового метода информационного поиска, который взят за основу сравнения, а второй критерий положен в основу семантического метода поиска.
13. Для критерия близости построена базовая шкала, система решающих правил и процедура определения значения близости СемБл текстовых фрагментов по типу "Слабая", "Относительная", "Достаточная" или "Сильная". Для базовой шкалы построены подинтервалы близостей и составные условия включения документов в ВЫДАЧУ, которые составили общую платформу экспериментов.
14. Проведено экспериментальное исследование базового и семантического видов информационного поиска, для чего разработаны схемы экспериментов, построен специальный программный комплекс, сформирована из 10 документов тестовая выборка, а из 70 документов - поисковое пространство, включающее документы тестовой выборки.
Результаты экспериментов по формированию ВЫДАЧ для разных запросов, порогов встречаемости и подинтервалов близостей базового и семантического методов информационного поиска и их сравнительный анализ показывают, что семантический метод поиска по качеству ВЫДАЧ в разы превосходит базовый метод. Это выражается в более компактных ВЫДАЧАХ, содержащих документы контрольной выборки, и прослеживается на всех интервалах близостей. Преимущества семантического метода поиска особенно проявляется на документах, принадлежащих одной и той же предметной области и использующих одну и ту же терминологическую базу. Этот случай особенно труден для базового метода, который практически нечувствителен к различению документов, использующих одни и те же слова и терминологию.
Библиография Вишняков, Ренат Юрьевич, диссертация по теме Теоретические основы информатики
1. Aggarwal С. С., Al-Garawi F., Yu P. S. Intelligent crawling on the world wide web with arbitrary predicates. In Proc. of the WWW 10, pp. 96-105, May 2001.
2. Agichtein E., Lawrence S., Gravano L. Learning search engine specific query transformations for question answering. In Proc. of the WWW10, pp. 169-178, 2001.
3. Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), pages 298-306, April 1996.
4. Allison P.J. The impact of database selection on distributed searching. In Proc. of the SIGIR'00, 2000.
5. Amento В., Terveen L., Hill W. Does "authority" mean quality? Predicting expert quality ratings of web documents. In Proc. of the SIGIR'00, pp. 296-303, 2000.
6. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.
7. Baker D.L., Callum A.K. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96-103, 1998.
8. Broder A. Z., Najork M., and Wiener J. L. 2003. Efficient URL caching for World Wide Web crawling. In Proceedings of the twelfth international conference on World Wide Web (WWW2003). Budapest, Hungary, p. 680-689.
9. Brown E.W. Execution Perfomance Issue in Full-Text Information Retrieval. Dissertation. University of Massachusetts. Departament of Computer Science. February 1996.
10. Callan J. Document filtering with inference networks. In Proceedings of the 19th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 262269, 1996.
11. Callan J.P., Lu Z., Croft W.B. Searching distributed collections with inference networks. In Proceedings of the SIGIR'95, 1995.
12. Chakrabarti S., Van den Berg M., Dom B. Focused crawling: A new approach to topic-specific web resource discovery. In Proc. of the WWW-8, May 1999.
13. Chakravarthy A.S., Haase K.B. NetSerf: Using semantic knowledge to find internet information archives. In Proc. of the SIGIR'95, pages 4-11, 1995.
14. Cho J., Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. The VLDB Journal, pp. 200-209, 2000.
15. Cho J., Shivakumar N., Garcia-Molina H. Finding replicated Web collections. In Proc. of the SIGMOD'OO, pp. 355-366, 2000.
16. Cohn D., Chang H. Learning to Probabilistically Identify Authoritative Documents. In Proc. of the ICML'00, pp. 167-174, 2000.
17. Craswell N., Bailey P. Is it fair to evaluate Web systems using TREC ad hoc methods? In Proc. of the SIGIR'99,1999.
18. Craswell N., Hawking D., Robertson S. Effective site finding using link anchor information. In Proc. oftheSIGIR'01,2001.
19. Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.
20. Drelinger D., Howe A. Expiriences wth selecting search engines using MetaSearch. ACM Transactions on Information Systems, 15(3): 195-222, 1997.
21. Dublin Core Metadata Element Set Reference Description, Version 1.1, 1999-0702. http:/purl.org/dc/documents/proposedrecommendations/pr-dces-19990702.html.
22. Dumais S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text REtrieval Conference, 1995.
23. Finkelstein L., Gabrilovich E., Matias Y., Rivlin E., Solan Z., Wolfman G., Ruppin E. Placing search in context: the concept revisited. In Proc. of the WWW10, pp. 406-414, 2001.
24. Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40-47, 1990.
25. Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225-234, 1998.
26. Gruber T. A translation approach to portable ontology specifications. Knowledge Acquisition, 5(2), 1993, pp. 199-220.
27. Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.
28. Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35-42, 1999.
29. Hatzivassiloglou V., Gravano L., Maganti A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000, 2000.
30. Hawking D., Craswell N. Which Search Engine is best at finding Online Services? In Proc. of the WWW 10, 2001.
31. Hawking D., Craswell N., Bailey P., Griffiths K. Measuring Search Engine Quality. Information Retieval, 4(l):33-59, 2001.
32. Hawking D., Craswell N., Thistlewaite P. B., Harman D. Results and Challenges in Web Search Evaluation. In Proc. of the WWW8, pp. 243-252, 1999.
33. Henzinger M., Heydon A., Mitzenmacher M., Najork M. Measuring Index Quality Using Random Walks on the Web. In Proc. of the WWW8, 1999.
34. Henzinger M., Heydon A., Mitzenmacher M., Najork M. On Near-Uniform URL Sampling. In Proc. of the WWW9, 2000.
35. Heydon A., Najork M. Mercator: A Scalable, Extensible Web Crawler. World Wide Web, 2(4):219-229, 1999.36. http://dic.academic.ru/dic.nsf/encmathernatics/5085/%D0%A1%D0%98%D0%9D%D0%A2 %D0%90%D0%9A%D0%A 1 %D0%98%D0%A7%D0%95%D0%A 1 %D0%9A%D0%90%D0 %AF
36. Полнотекстовый поиск (Чикагский университет http:// humanities. uchicago.edu/faculty/goldsm).38. http://www.stilistika.by.ru/08.shtm.
37. Huang L., Hemmje M., Neuhold E. J. ADMIRE: An Adaptive Data Model for Meta Search Engines. In Proc. of the WWW9, pp. 165-174, 2000.
38. Jansen B.J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing and Management, 36(2):207-227, 2000.
39. Yang Y. An evolution of statistical approaches to text categorization. Journal of the ACM. 1997. Vol. 29 (№1). Pp 18-46.
40. Kilander F., Fehraeus E., Palme J. PEFNA: The private filtering news agent. Technical report, Department of Computer and Systems Sciences, Stockholm University, February 1997.
41. Kleinberg J.M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604-632, 1999.
42. Landauer T., Foltz P., Laham D. An introduction to latent semantic analysis. Discourse Processes, 25:259-284.
43. Lawrence S. Context in Web Search. IEEE Data Engineering Bulletin, 23(3):25-32, 2000.
44. Lawrence S., Giles C. Inquirus L. The NECI Meta Search Engine. In Proc. of the WWW7, pp. 95-105, 1998.
45. Lawrence S., Lee Giles C. Searching the World Wide Web. Science, 280(5360):98-100, 1998.
46. Maron M.E., Kulins J.L. On relevance, probabilistic indexing and information retrieval. Jornal of the ACM, No. 7, 1960, pp. 216-244.
47. Melnik S., Raghavan S., Yang В., Garcia-Molina H. Building a distributed full-text index for the web. In Proc. of the WWW10, pp. 396-405, May 2001.
48. Merkl D. Lessons learned in text document classification. In Proc. of the Workshop on Self-Organizing Maps (WSOM'97), pages 316-321, Helsinki, Finland, June 1997.
49. Moulinier L. A framework for comparing text categorization approaches. // Journal of the American Society for Information Science. New York, 2000. №5.-P. 170-179.
50. Patel A., Petrosjan L., Rosenstiel W., editors. OASIS: Distributed Search System in the Internet. St. Petersburg State University Published Press, St. Petersburg, 1999.
51. Salton G., Allan J., Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127-138, 1996.
52. Salton G., Buckley C. Improving retrieval performance by relevance feedback. Journal of the American Society of Information Science, 41(4):288-297, 1990.
53. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988.
54. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.
55. Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
56. Salton G., Singhal A., Mitra M., Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193-208, 1997.
57. Savoy J., Picard J. Report on the TREC-8 Experiment: Searching on the Web and in Distributed Collections. In Proc. of the TREC'8, 1999.
58. Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1): 1 -47, 2002.
59. Shivakumar N., Garcia-Molina H. Finding Near-Replicas of Documents on the Web. In Proc. of the WebDB'99, 1999.
60. Singhal A. Modern Information Retrieval: A Brief Overview. Data Enginering Bulletin, IEEE Computer Society, Vol. 24, No. 4, December 2001, pp. 35-43.
61. Singhal A., Kaszkiel M. A case study in web search using TREC algorithms. In Proc. of the WWW10, pp. 708-716, 2001.
62. Singhal A., Mitra M., and Buckley C. Learning routing queries in a query zone. In Proc. of the SIGIR'97, pages 25-32, July 1997.
63. Turtle H.R. Inference Networks for Document Retrieval. Dissertation. University of Massachusetts. Department of Computer and Information Science. February 1991.
64. Yang Y., Pederson J. Feature selection in statistical learning of text categorization. In Proc. of the ICML'97, pages 412-420, 1997.
65. Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449-455, 2000.
66. Ахо А., Ульман Дж.-Теория синтаксического анализа, перевода и компиляции. -M.: Мир, 1978, Т.1.-612 с.
67. Ахо А., Ульман Дж.-Теория синтаксического анализа, перевода и компиляции. -M.: Мир, 1978, Т.2.-490 с.
68. Андреев A.M., Березкин Д.В., Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестник МГТУ. Сер. Приборостроение. М.:Изд-во МГТУ,- 2003,- №3.
69. Баженова Е.А. Научный текст в аспекте политекстуальности. / Пермь, журнал Вестник пермского университета «Российская и зарубежная филология», вып. 2(8), 2010, с.60-64.
70. Берштейн JI.C., Дзюба Т.А. Решение задач классификации на нечетких графах // Интернет журнал «Перспективные информационные технологии и интеллектуальные системы». 2001. -№ 2. - С. 16-24.
71. Берштейн JI.C., Целых А.Н., Тимошенко Р.П. О различных подходах к решению задачи нечеткой классификации // Интернет журнал «Перспективные информационные технологии и интеллектуальные системы». 2000. - № 4. - С. 20-25.
72. Вишняков Р.Ю. Об одном подходе к интеллектуализации информационно-поисковых систем // Известия ТРТУ. Тематический выпуск, «Интеллектуальные САПР». — Таганрог, изд-во ТРТУ, 2007, №1 (73) — с. 170-173.
73. Вишняков Р.Ю. Построение предметных словарей // Сборник трудов VI Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление». — Таганрог изд-во ТТИ ЮФУ, 2008. — С. 1319.
74. Вишняков Р.Ю. Проблемно-ориентированный интегратор информационных ресурсов (POINTER) // Неделя науки 2009: Материалы научных работ. - Таганрог: Изд-во ТТИ ЮФУ, 2009.-С.34-36
75. Ю.Вишняков Р.Ю., Вишняков Ю.М. Семантически ориентированная метамодель предложения научно-технического текста. // Журнал «Информатизация и связь», №3, 2011, с. 1719.
76. Вишняков Р.Ю., Вишняков Ю.М. Об одной модели семантической классификации методов информационного поиска. // Информатика, вычислительная техника и инженерное образование. Таганрог: Изд-во ЮФУ, 2011, № 4(6), с.21-24
77. Вишняков Р.Ю., Вишняков Ю.М. Словная шкала, операции над отрезками, разбиения. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные САПР». -Таганрог: Изд-во ЮФУ, 2012, № 2 (127), с. 198-204.
78. Гаврилова Т.А., Червинская K.P. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992. - 290 с.
79. Гладкий A.B. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Наука. Главная редакция физико-математической науки, 1985 -144 с. (Серия «Проблемы искусственного интеллекта»).
80. Гринберг И., Ли Г. Разработка новых технологий информационного поиска. Открытые Системы, 10, 1999.
81. И9.Грис Д. Конструирование компиляторов для цифровых вычислительных машин. -М.: Мир, 1975.-545 с. '
82. Добрынин В.Ю., Некрестьянов И.С., Задача выбора тематических коллекций, релевантных запросу. // Труды Всероссийской научно-методической конференции "Интернет и современное сообщество", Санкт-Петербург, декабрь 1998.
83. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. -С. 77-83.
84. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.
85. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. 2000. - N5.
86. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.
87. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. - N11,- с. 81-93.
88. Иванов В., Некрестьянов И., Пантелеева Н. Расширение представления документов при поиске в Веб // Труды четвертой всероссийской конференция RCDL'2002. В двух томах. Т.2.-Дубна, 2002.-С. 55-68.
89. Карташева Е. Интеллектуальные поисковые системы Excalibur. Сети, 6, 1997.
90. Когаловский М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.
91. Когаловский М.Р. Энциклопедия технологий бах данных. М.: Финансы и статистика, 2002. - 800 с.
92. Кристофер Д. Маннинг, Рагхаван Прабхакар, Шютце Хайнрих. Введение в информационный поиск.: Пер. с англ. М.: ООО «И.Д. Вильяме», 2011. - 528 с.
93. Кузнецов О.П. Дискретная математика для инженера. М.: Энергоатомиздат, 1988, с.
94. Кураленок И., Некрестьянов И. Оценка систем текстового поиска, Программирование, 28(4), 2002.
95. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. - N4. - С. 226-242.
96. Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов с использованием семантического анализа. Программирование, 4:31-41, 2000.
97. Кучуганов В.Н. Визуальное моделирование текстов//Труды Междунар. научно-технич. конференций "Интеллектуальные системы" (AIS'05)" и "Интеллектуальные САПР" (CAD-2005).- М.: Физматлит, 2005. -Т. 4. С. 104-114.
98. МО.Кучуганов В.Н. Семантика графической информации. Известия ТРТУ. Тематич. вып. "Интеллектуальные САПР". Материалы междунар. научн.-техн. конф. "Интеллектуальные САПР". Таганрог: Изд-во ТРТУ, 2002, №3(26). С. 157-166.
99. Лебедев В.Н. Введение в системы программирования. М., «Статистика», 1975, 312 с.
100. Леонтиева А, Кагиров И. Автоматический синтаксический анализ русских текстов. -Труды 10-й Всероссийской научной конференции «Электронные библиотеки: перепективные методы и технологии, электронные коллекции» RCDL'2008, Дубна, Россия, 2008, с. 397-400
101. Линейка продуктов для поиска и анализа текстов, http://www.metric.ru/, http://www.rco.ru/
102. Льюис Ф., Розенкранц А., Стирнз Р. Теоретические основы проектирования компилято-ров.-М.: Мир, 1979. 645 с.
103. Мельчук И.А. Об одной лингвистической модели «смысл-текст», М., Серия литературы и языка, т. 33, №5, 1974. С.436-437.
104. Митрофанова О.Д. Язык научно-технической литературы. М.: Изд-во МГУ, 1973.
105. Найханова Л.В., Евдокимова И.С. Методы и алгоритмы трансляции естественноязыковых запросов к базе данных в SQL-запросы: Монография. Улан-Удэ: Изд-во ВСГТУ, 2004.- 148 с.
106. Налимов В.В. Вероятностная модель языка. О соотношении естественных и искусственных языков. М.: Наука, 1979, 303 с.
107. Некрестьянов И.С. Маршрутизация запросов в системах распределенного поиска. Труды второй всероссийской научной конференции "Электронные библиотеки", стр. 280-287, Протвино, Россия, сентябрь 2000.
108. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. - С. 204-210.
109. Некрестьянов И.С., Пантелеева H.A. Системы текстового поиска для Веб // Программирование. 2002. - N4.
110. Николаев A.M. Описание семантики научного текста с позиций теории речевых актов (на материале рецензии на научно-техническую работу) // НТИ. Сер. 2. 1998, № 7.
111. Новиченок И.К. Грамматика русского языка в таблицах и схемах. Санкт Петербург: Изд-дом «Литера», 2008, 93 с.
112. Пехливанова К.И., Лебедева М.Н. Грамматика русского языка. М.: Изд-во «Русский язык», издание 5-е и дополненное, 1990. 352 с.
113. Платон. Кратил. Соч.: В 3-х т., М.: Мысль, 1968, т.1
114. Романова Е.В., Романов М.В., Некрестьянов И.С. Использование интеллектуальных сетевых роботов для построения тематических коллекций // Программирование. 2000. -N3.-C. 63-71.
115. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука. Главная редакция физико-математической науки, 1989 192 с. - (Серия «Проблемы искусственного интеллекта»),
116. Рыбаков Ф.И., Руднев Е.А., Петухов В.А. Автоматическое индексирование на естественном языке. Москва, Энергия, 1980, 160 с.
117. Рябцева H.K. Ментальные перформативы в научном дискурсе // Вопросы языкознания. 1992, №4.
118. Сачков В. Н. Комбинаторные методы дискретной математики — М.: Наука, 1977. — С. 241.— 319с.
119. Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев, Наукова думка, 1983, 192 с.
120. Севбо И.П. Сквозной анализ как шаг к структурированию текста // НТИ. Сер. 2. 1989, №2.
121. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. - С. 227-230.
122. Словарь глагольно-именных словосочетаний общенаучной речи. М., Наука, 1973.
123. Сэлтон Дж. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973. - 560 с.
124. Сэлтон Дж. Эксперименты по автоматическому построению тезауруса для информационного поиска // Кибернетический сборник, новая серия. Вып. И. М.: Мир, 1974. С. 185199.
125. Тестелец Я.Г. Введение в общий синтаксис. Учебное пособие. М.: Изд-во Российского гуманитарного университета, 2001, 830 с.
126. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультия-зычных коллекций документов, Труды конференции КИИ-2004, Тверь, Россия, 2004.
127. Черный А.И. Введение в теорию информационного поиска. Монография. М.: Наука, 1975,239 с.
128. Чугреев B.JL, Яковлев С.А., Анализ структуры текста и прогнозирование нечисловых величин. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн,-техн. конф. - Вологда: ВоГТУ, 2003. - С. 202-204.
129. Чугреев В.JI., Яковлев С.А., Выделение критериев поиска текста на основе подобия значимых документов. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. - Вологда: ВоГТУ, 2003. - С. 200-202.
130. Шемякин Ю.И. Начала компьютерной лингвистики: Учеб. пособие. М.: Изд-во МГОУ, А/О"Росвузнаука", 1992.- 120 с.
131. Яновская С.А. Проблемы введения и исключения абстракций более высоких порядков (чем первый).// В кн.: Яновская С.А. Методологические проблемы жизни. М.: Мысль, 1972.
132. Хомский Н. Синтаксические структуры = Syntactic Structures. // Серия сборников переводных статей по языкознанию «Новое в лингвистике». М.: 1962. Вып. II. — с. 412—527.
133. Для организации проведения научных исследований магистрантами в области семантической интерпретации и обработки текстовой информации и ее приложений в информационном поиске и электронных хранилищах данных;
134. В дисциплинах "Семантическая интепретация и классификация текстовой информации" и «Методы и средства автоматической обработки текстовой информации».
135. Теоретические результаты и построенные на их основе программные средства позволяют магистрантам изучать, проводить исследования и ставить эксперименты в области обработки текстовой информации и информационного поиска.
136. Результаты диссертационной работы обеспечивают качественный учебный процесс по магистерской программе «Интеллектуальные системы» направления 230100.68 «Информатика и вычислительная техника».
137. Зав. кафедрой математического обеспечения и применения ЭВМ,д.т.н., профессор1. П.П. Кравченко
-
Похожие работы
- Формализация свертывания краеведческих документов публицистического характера
- Совершенствование лингвистических и структурных характеристик информационных документов АИС и РЖ
- Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет
- Технология разработки семантического словаря системы информационного мониторинга
- Инструментальные средства создания элементов пользовательского интерфейса на основе семантического описания компьютерных пиктограмм
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность