автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Машинный семантический анализ русского языка и его применения

кандидата физико-математических наук
Мозговой, Максим Владимирович
город
Санкт-Петербург
год
2006
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Машинный семантический анализ русского языка и его применения»

Автореферат диссертации по теме "Машинный семантический анализ русского языка и его применения"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

на правах рукописи

Мозговой Максим Владимирович Машинный семантический анализ русского языка и его применения

Специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации па соискание ученой степени

кандидата физико-математических наук

Санкт-Петербург - 2006

Работа выполнена на кафедре технологии программирования факультета ПМ-ПУ Санкт-Петербургского государственного университета

Научный руководитель: доктор физико-математических наук,

профессор Тузов Виталий Алексеевич

Официальные оппоненты: доктор физико-математических наук,

профессор Братчиков Игорь Леонидович кандидат физико-математических наук доцент Комаров Игорь Иванович

Ведущая организация: Северо-Осетинский государственный университет им. К.Л. Хетагурова

Защита диссертации состоится «_2.£» йуЗ 2006г. в 14 часов на

заседании диссертационного совета Д 212.232.51 по защите диссертаций на соискание ученой степени доктора наук при Санкт-Петербургском государственном университете по адресу: 198504, С.-Петербург, Старый Петергоф, Университетский пр. 28, математико-механический факультет Санкт-Петербургского государственного университета.

С диссертацией можно ознакомиться в Научной библиотеке Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб., д. 7/9.

Автореферат разослан « » __2006 года.

Учёный секретарь диссертационного совета доктор физико-математических наук, профессор * V Мартыненко Б.К.

снМ

Аннотация

Диссертационная работа посвящена изучению приложений функциональной теории естественного языка и автоматического семантического анализатора проф. В.А. Тузова. Являясь мощным инструментом исследования структуры предложений русского языка и выявления смысла отдельных слов, семантический анализатор почти не применяется на практике. В диссертации продемонстрированы алгоритмы решения некоторых задач из области обработки текстов на естественном языке, опирающиеся на извлекаемую семантическим анализатором информацию.

Общая характеристика работы

Актуальность. Обработка текстов на естественном языке — важная задача, привлекающая внимание специалистов на протяжении десятилетий. Анализ документов требуется, в частности, для решения проблем информационного поиска, машинного перевода, функционирования вопросно-ответных систем и модулей проверки правописания. Семантический анализатор может существенно улучшить качество систем, связанных с обработкой текстов, но способы его использования пока ещё слабо изучены.

Цель работы — изучить возможность применения семантического анализатора в реальных проектах. Для этого требуется разработать ряд алгоритмов, опирающихся не на классические модели представления знаний документов (основанные на статистике, либо на поверхностном анализе), а на деревья разбора предложений и синтактико-семантические описания слов, генерируемые семантическим анализатором. Построенные

алгоритмы должны быть запрограммированы на уровне, по крайней мере, экспериментальных систем.

Направления исследований:

1. Сравнение функциональной модели языка, предложенной В. Тузовым, с более ранними теориями.

2. Изучение возможности использования функциональной модели языка и семантического анализатора в задачах построения вопросно-ответных систем, информационного поиска и рубрикации, проверки правописания и подбора синонимов, поиска частичных совпадений и выявления плагиата, а также в машинном переводе.

3. Анализ технических деталей, связанных с применением семантического анализатора в реальных проектах.

Методы исследования, достоверность ы обоснованность результатов. Предлагаемая работа ориентирована на достижение практических результатов. Почти все описанные алгоритмы доведены до реализации, их работоспособность подтверждается экспериментами. Теоретические построения (классификация вопросительных предложений, схема системы автоматизированного перевода) опираются на известные, описанные в научной литературе результаты. Фундаментом исследований служит функциональная модель языка В. Тузова, цитируемая во многих научных работах.

На защиту выносятся:

1. Предложенные способы использования семантического анализатора В. Тузова в различных проектах, связанных с обработкой текстов на естественном языке.

2. Конкретные алгоритмы, лежащие в основе построенных экспериментальных систем.

3. Теоретические модели, такие как классификация вопросительных предложений в русском языке и общая схема системы автоматизированного перевода.

Научная новизна результатов исследования:

1. Впервые была широко изучена возможность использования функциональной модели языка и семантического анализатора для решения практических задач, связанных с обработкой текстов на естественном языке.

2. Автором разработаны конкретные алгоритмы решения ряда задач, относящихся к теме исследования. Построены экспериментальные системы, иллюстрирующие выполнение алгоритмов семантического анализа.

3. Автором создана модель системы автоматизированного перевода, использующей функциональную теорию языка.

Практическая полезность работы. Предлагаемые в диссертации методы могут использоваться при создании высококачественных систем обработки текстов на естественном языке. Семантический анализатор не имеет аналогов по качеству и полноте генерируемых выходных данных. Отдельные элементы выходной распечатки могут быть также применены в существующих программных продуктах для реализации дополнительной функциональности.

Реализация результатов работы. Почти все описываемые в работе алгоритмы воплощены в экспериментальных системах, предназначенных для решения задач, относящихся к обработке документов на естественном

языке. Функционирование данных систем подробно описывается в научных работах автора.

Апробация работы. Отдельные результаты по теме диссертации докладывались:

1. на XXXVII конференции «Процессы управления и устойчивость» (С.Петербург, 10-13 апреля 2006г.);

2. в Летней школе IMPDET (Мекриярви, Финляндия, 4-9 июня 2006г.);

3. на специальном семинаре кафедры технологии программирования факультета ПМ-ПУ СПбГУ;

4. в рамках цикла лекций представителей факультета ПМ-ПУ СПбГУ в университете г. Аизу (Япония, 19-24 февраля 2006г.);

5. на семинаре PhD студентов кафедры компьютерных наук факультета естественных наук университета г. Иоэнсуу (Финляндия).

Публикации. Основные результаты диссертации отражены в 3 научных работах; результаты ещё 4 работ существенно используются при решении отдельных изучаемых задач.

Структура и объём работы. Диссертационная работа состоит из введения, семи глав, заключения и библиографического списка, включающего 63 наименования. Работа изложена на 116 листах машинописного текста, содержит 15 рисунков и 24 таблицы.

Краткое содержание работы

Первая глава знакомит читателя с формальными моделями естественного языка. Попытки строго научного описания языков предпринимаются, по крайней мере, с пятидесятых годов XX века (если не считать единичных работ XIX столетия и даже более раннего времени).

Лишь немногие из них, однако, оказали существенное влияние на современное состояние 1Ч1Л\ Мы рассмотрим три возможных подхода: грамматики Хомского как наиболее влиятельную модель, оказавшую большое воздействие на теорию компиляции, модель «смысл О текст» И. Мельчука, охватывающую самые разные пласты языкознания, и функциональную теорию языка В. Тузова, на основе которой был разработан семантический анализатор. Теории, посвященные частным аспектам языка (морфологии, синтаксису) в работе не рассматриваются.

Вторая глава иллюстрирует, как семантический анализатор может быть применён в задаче разработки вопросно-ответных систем, предназначенных для организации полноценного интерфейса на естественном языке между человеком и компьютером. Во второй главе также рассматривается классификация вопросительных предложений, имеющих смысл в контексте диалога с компьютером.

Третья глава посвящена задачам информационного поиска и рубрикации документов. Современные системы поиска и рубрикации обычно основываются на статистическом анализе текстов и анализе различных эвристических показателей (таких как популярность документа и количества ссылок на него, если речь идёт о странице в интернете). Это делает используемые алгоритмы независимыми от языка документов, но не позволяет использовать информацию, напрямую заложенную в слова. Семантический анализатор способен сделать поиск более интеллектуальным, что доказывается на примерах применения словаря классов и деревьев разбора предложений.

В четвёртой главе описывается механизм использования семантического анализатора в задачах проверки правописания и подбора синонимов слов. Семантический анализатор основан примерно на тех же

принципах, что и компилятор языка программирования, поэтому (в частности) проверка правильности структуры входных предложений является его прямой задачей. Кроме того, в состав анализатора входит семантический словарь, которым можно воспользоваться как словарём синонимов.

В пятой главе рассматривается задача поиска частично совпадающих документов и выявления плагиата. Алгоритмы, разработанные для её решения, оказываются особенно эффективными при обработке информации, имеющей некоторую структуру. Неструктурированные данные приходится сравнивать достаточно простыми средствами, в то время как для файлов, поддающихся структурному анализу, можно создать более качественную специализированную процедуру. Семантический анализатор способен структурировать тексты на естественном языке, расширяя возможности для разработки эффективных алгоритмов их сравнения,

В шестой главе изучается возможный подход к решению задачи машинного перевода с помощью семантического анализатора. Машинный перевод изобилует неожиданными трудностями, поэтому говорить о возможности полноценного его осуществления с помощью применения какой-либо технологии не приходится. Однако принципы, на которых основан семантический анализатор, позволяют естественным образом решать задачи, оказывающиеся весьма сложными для других методов построения автоматизированных систем перевода.

Седьмая глава фокусирует внимание на некоторых технических аспектах, связанных с использованием семантического анализатора. Анализатор представляет собой сложную систему, предназначенную для решения нетривиальных задач, и способ его общения с внешним миром

сам по себе заслуживает внимания. Также здесь обсуждаются перспективы развития семантического анализатора как программного продукта.

Заключение

Целью данной работы была попытка показать, что семантический анализатор может быть применён при решении самых различных задач, связанных с обработкой текстов на естественном языке. Па нынешний момент нам представляется, что именно широта охвата предметной области могла бы привлечь внимание к алгоритмам семантического анализа и помочь понять, где анализатор может быть особенно эффективен.

В рамках исследований изучались такие направления, как создание вопросно-ответных систем, информационный поиск и рубрикация, инструменты проверки правописания и подбора синонимов, поиск частичных совпадений и выявление плагиата, а также машинный перевод. Были разработаны:

■ экспериментальная вопросно-ответная система первого уровня понимания;

■ классификация вопросительных предложений, пригодная для последующего использования в диалоговых приложениях;

■ система информационного поиска, опирающаяся на семантические формулы слов документов коллекции;

■ модуль поиска связанных слов;

■ контекстно-ориентированный электронный тезаурус;

■ система поиска плагиата в текстах на русском языке, использующая систему классов как основу модуля токенизации;

" рабочая модель системы машинного перевода.

Список основных публикаций

[1] Мозговой М.В. Простая вопросно-ответная система на основе семантического анализатора русского языка // Вестник СПб университета. — 2006. — сер. 10. — вып. 1. — С. 116-122.

[2] Мозговой М.В. Семантический анализатор и задача информационного поиска // Вестник СПб университета. — 2005. — сер. 10. — вып. 3. — С. 54-59.

[3] Мозговой М.В. Контекстно-ориентированный тезаурус русского языка // Процессы управления и устойчивость: Труды 37-й международной научной конференции аспирантов и студентов / Под ред. А.В. Платонова, Н.В. Смирнова — СПб.: Изд-во СПбГУ. — 2006. — С. 379-383.

Список сопутствующих публикаций

[4] Mozgovoy М. Desktop Tools for Offline Plagiarism Detection in Computer Programs // Informatics in Education. — 2006. — Vol. 5(1). — P. 97-112.

[5] Fredriksson K., Mozgovoy M. Sublinear Parameterized Single and Multiple String Matching. Technical Report A-2006-2, Department of Computer Science, University of Joensuu, March, 2006.

[6] Mozgovoy M., Fredriksson K., White D., Joy M., and Sutinen E. Fast Plagiarism Detection System // Lecture Notes in Computer Science. — 2005. — Vol. 3772. — P. 267-270.

[7] Мозговой М.В. Классика программирования: алгоритмы, языки, автоматы, компиляторы. Практический подход. — СПб.: Наука и Техника, 2006. — 320 с.

Подписано в печать 27.06.2006. Формат бумаги 60 х 84 1/16. Бумага офсетная. Печать ризографическая. Усл. печ. л. 1,0. Тираж 100 экз. Заказ 3802.

Отпечатано в отделе оперативной полиграфии НИИХ СПбГУ. 198504, Санкт-Петербург, Старый Петергоф, Университетский пр.26

Оглавление автор диссертации — кандидата физико-математических наук Мозговой, Максим Владимирович

Оглавление.

Введение.

О структуре диссертации.

Глава 1. Задача формализации естественного языка.

Формальные грамматики Н. Хомского.

Модель «смысл О текст» И. Мельчука.

Семантический анализатор В. Тузова.

Глава 2. Семантический анализ в вопросно-ответных системах

Принципы организации простой вопросно-ответной системы.

Классификация вопросительных предложений.

Примеры вопросов и ответов.

Глава 3. Семантический анализ в задачах информационного поиска и рубрикации.

Поиск и рубрикация с помощью словарей классов.

Усовершенствованный механизм поиска.

Дополнительные возможности для существующих поисковых машин

Глава 4. Спеллчекер и тезаурус.

Семантический анализатор как модуль проверки правописания.

Контекстно-ориентированный тезаурус на основе семантического анализатора.

Глава 5. Поиск частично совпадающих документов и выявление плагиата.

О задаче выявления плагиата и поиске частичных совпадений.

Технические особенности систем выявления плагиата.

Использование семантического анализатора в задаче выявления плагиата.

Глава 6. Введение в машинный перевод.

Морфологический и синтактико-семантический уровни анализа текста

Семантический уровень анализа текста.

Адаптация семантического анализатора для различных языков.

Схема простейшей системы машинного перевода на основе семантического анализатора.

Практический пример: русско-финский перевод.

Глава 7. Технические детали.

Текущая реализация семантического анализатора и её перспективы.

Формат выходных данных семантического анализатора.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Мозговой, Максим Владимирович

Обработка текстов на естественных языках (natural language processing, NLP) — тема, не теряющая своей актуальности на протяжении десятилетий. Системы информационного поиска, диалоговые системы, инструменты для машинного перевода и автореферирования, синтезаторы речи (выполняющие хотя бы базовую интонационную разметку), рубрикаторы и модули проверки правописания так или иначе выполняют анализ текстов, написанных на естественных языках. Важность и амбициозность задачи научить вычислительную машину понимать человеческий язык привлекала внимание исследователей уже на заре компьютерной эры. Так, в 50-х годах появляются первые публикации о системах машинного перевода [1]. В наши дни успехи направления можно охарактеризовать как переменные. С одной стороны, почти все коммерческие текстовые редакторы содержат спеллчекер, а переводчики фирмы Promt [2] успешно рекламируются и продаются. С другой стороны, несовершенство существующих систем проверки правописания и низкое качество машинного перевода общеизвестны.

В книге [3] перечисляются типичные этапы, проходимые человеком, самостоятельно изучающим иностранный язык: «На первом этапе он, как правило, бурно и эмоционально переживает свои первые успехи в движении от незнания к знанию: всё кажется легко, просто и быстро. На втором этапе работы у него появляются сомнения в себе, в своей памяти, в силе воли и даже в своих способностях, а заодно и в качестве учебников, с которым он работает. На третьем этапе он приходит к выводу и вполне философскому, а именно: "я знаю, что ничего не знаю!" Именно на этом-то этапе и начинается труд по изучению иностранного языка с увлечением, который, подобно спорту, захватывает человека».

По всей видимости, отношение специалистов к таким сложным и трудно формализуемым областям компьютерной науки, как искусственный интеллект, обработка текстов на естественном языке и распознавание образов1, эволюционирует сходным образом. Первые успехи на игрушечных примерах заканчиваются экзальтированными заявлениями о скором нахождении полного решения задачи. Затем наступает неизбежное разочарование. Переход к более масштабным проектам наглядно свидетельствует: усложнение системы не есть механическое наращивание функциональности. Уметь распознавать десять слов — не значит написать программу, распознающую речь. Самообучаться игре в крестики-нолики ещё не значит уметь учиться игре в шахматы. Основанную на правилах экспертную систему нельзя просто так расширить в несколько раз, механически добавляя новые и новые правила.

Изучая литературу, можно убедиться, что первые два этапа эволюции отношения к задачам сферы искусственного интеллекта пришлись, соответственно, на 50-60-е и 70-80-е годы прошлого столетия . Вот лишь некоторые цитаты: 1956г.: «Задача заключается в том, чтобы работать на основе предположения, что любой аспект обучения или другой функции разума может быть описан так точно, чтобы машина смогла его симулировать. Мы попытаемся определить, как сделать так, чтобы

1 И обработка текстов, и распознавание образов тоже могут быть отнесены к задачам искусственного интеллекта в широком смысле слова.

2 Разумеется, это не означает, что все фундаментальные работы по обработке естественного языка и искусственному интеллекту были сделаны в 50-60-е, а последующие исследователи лишь критиковали предшественников. Речь здесь идёт лишь об общей тенденции. машины могли пользоваться языком, формулировать абстракции и концепции, решать задачи, которыми сейчас занимаются только люди, а также заниматься самообучением» [4]. Л

В 1960-е гг. <.> сильный ИИ продолжал оставаться главной темой в разработках ИИ» [5].

Первая публичная демонстрация переводящего устройства имела колоссальный успех. Это был знаменитый Джорджтаунский эксперимент, проведенный в Нью-Йорке в 1954 году. Тогда все смотрели на возможности компьютерного перевода сквозь розовые очки. Профессиональным переводчикам пророчили в недалеком будущем голодную смерть. Однако вскоре выяснилось, что многие аспекты языка чрезвычайно далеки от формализации, необходимой для успешной работы компьютера с текстом. Многие проблемы казались неразрешимыми, и интерес к машинному переводу сильно упал» [6].

1970-е гг. показали резкий спад интереса к ИИ после того, как исследователям не удалось выполнить нереальные обещания его успеха». «1980-е продемонстрировали как рост, так и спад интереса к ИИ. Основной причиной этого были сбои экспертных систем <.> Также были идентифицированы ограничения в работе экспертных систем, поскольку их знания становились всё больше и сложнее» [5].

Начиная с 90-х годов XX века отношение к задачам искусственного интеллекта вообще и к обработке текстов на естественном языке в частности становится всё более прагматичным. Если не удаётся сделать компьютер интеллектуальным, пусть он поступает разумно хотя бы в чём

3 То есть программное обеспечение, благодаря которому компьютеры смогут думать так же, как люди. либо. Если не получается создать полноценную систему перевода, пусть автоматический переводчик станет помощником переводчика-человека. Если нельзя добиться большего, пусть программа, анализирующая отсканированный текст, распознаёт хотя бы печатные буквы.

Данная работа посвящена изучению возможных применений семантического анализатора, созданного проф. В. Тузовым. Семантический анализатор, с одной стороны, позволяет сравнительно малыми усилиями повысить качественный уровень решений многих задач сферы NLP (что вполне согласуется с современным подходом: если не удаётся достичь революционного улучшения, сделайте хотя бы шаг вперёд). С другой стороны, принципы, заложенные в семантический анализатор, теоретически позволяют добиться весьма значительных результатов, хотя и ценою гораздо больших затрат времени и труда.

О структуре диссертации

Первая глава знакомит читателя с формальными моделями естественного языка. Попытки строго научного описания языков предпринимаются, по крайней мере, с пятидесятых годов XX века (если не считать единичных работ XIX столетия и даже более раннего времени). Лишь немногие из них, однако, оказали существенное влияние на современное состояние NLP. Мы рассмотрим три возможных подхода: грамматики Хомского как наиболее влиятельную модель, оказавшую большое воздействие на теорию компиляции, модель «смысл О текст» И. Мельчука, охватывающую самые разные пласты языкознания, и функциональную теорию языка В. Тузова, на основе которой был разработан семантический анализатор. Теории, посвящённые частным аспектам языка (морфологии, синтаксису) в работе не рассматриваются.

Вторая глава иллюстрирует, как семантический анализатор может быть применён в задаче разработки вопросно-ответных систем, предназначенных для организации полноценного интерфейса на естественном языке между человеком и компьютером. Во второй главе также рассматривается классификация вопросительных предложений, имеющих смысл в контексте диалога с компьютером.

Третья глава посвящена задачам информационного поиска и рубрикации документов. Современные системы поиска и рубрикации обычно основываются на статистическом анализе текстов и анализе различных эвристических показателей (таких как популярность документа и количества ссылок на него, если речь идёт о странице в интернете). Это делает используемые алгоритмы независимыми от языка документов, но не позволяет использовать информацию, напрямую заложенную в слова. Семантический анализатор способен сделать поиск более интеллектуальным, что доказывается на примерах применения словаря классов и деревьев разбора предложений.

В четвёртой главе описывается механизм использования семантического анализатора в задачах проверки правописания и подбора синонимов слов. Семантический анализатор основан примерно на тех же принципах, что и компилятор языка программирования, поэтому (в частности) проверка правильности структуры входных предложений является его прямой задачей. Кроме того, в состав анализатора входит семантический словарь, которым можно воспользоваться как словарём синонимов.

В пятой главе рассматривается задача поиска частично совпадающих документов и выявления плагиата. Алгоритмы, разработанные для её решения, оказываются особенно эффективными при обработке информации, имеющей некоторую структуру. Неструктурированные данные приходится сравнивать достаточно простыми средствами, в то время как для файлов, поддающихся структурному анализу, можно создать более качественную специализированную процедуру. Семантический анализатор способен структурировать тексты на естественном языке, расширяя возможности для разработки эффективных алгоритмов их сравнения.

В шестой главе изучается возможный подход к решению задачи машинного перевода с помощью семантического анализатора. Машинный перевод изобилует неожиданными трудностями, поэтому говорить о возможности полноценного его осуществления с помощью применения какой-либо технологии не приходится. Однако принципы, на которых основан семантический анализатор, позволяют естественным образом решать задачи, оказывающиеся весьма сложными для других методов построения автоматизированных систем перевода.

Седьмая глава фокусирует внимание на некоторых технических аспектах, связанных с использованием семантического анализатора. Анализатор представляет собой сложную систему, предназначенную для решения нетривиальных задач, и способ его общения с внешним миром сам по себе заслуживает внимания. Также здесь обсуждаются перспективы развития семантического анализатора как программного продукта.

Заключение диссертация на тему "Машинный семантический анализ русского языка и его применения"

Заключение

Задача обработки текстов на естественном языке является одной из наиболее актуальных проблем компьютерной науки последних десятилетий. В простых задачах (распознавание языка документа, составление частотного словаря) от компьютера не требуется понимания содержания текстов. Если же речь заходит о системах машинного перевода или диалоговых программах, без определения смысла фраз уже не обойтись. Любой алгоритм, выполняющий анализ структуры текста, опирается на какую-либо модель языка. Даже простейшие утверждения наподобие «наиболее часто встречающиеся слова документа определяют его тематику» по сути являются простыми моделями сложных языковых явлений.

Семантический анализатор В. Тузова представляет собой полноценную систему анализа текста, опирающуюся на оригинальную функциональную теорию языка. Нельзя не отметить, что при ближайшем рассмотрении функциональная теория оказывается на редкость простой и изящной, что является хорошим признаком её адекватности (хотя и ничего не доказывающим с формальной точки зрения).

В то время как в мире существует довольно много разработок, основанных на классических теориях (в первую очередь, на грамматиках Хомского), проекты, использующие теорию В. Тузова, пока ещё практически не выходят за рамки лабораторных экспериментов. В этом нет ничего удивительного, учитывая относительную молодость функциональной теории, недостаток литературы и ориентацию на русский язык текущей версии семантического анализатора. Кроме того, нельзя игнорировать тот простой факт, что любая сколько-нибудь серьёзная разработка, основанная на семантическом анализаторе, требует солидных трудозатрат и, следовательно, капиталовложений. Малочисленная группа энтузиастов продукт промышленного уровня не осилит.

Целью данной работы была попытка показать, что семантический анализатор может быть применён при решении самых различных задач, где требуются технологии NLP. На нынешний момент нам представляется, что именно широта охвата предметной области могла бы привлечь внимание к алгоритмам семантического анализа и помочь понять, где анализатор может быть особенно эффективен.

В рамках исследований изучались такие направления, как создание вопросно-ответных систем, информационный поиск и рубрикация, инструменты проверки правописания и подбора синонимов, поиск частичных совпадений и выявление плагиата, а также машинный перевод. Были разработаны: экспериментальная вопросно-ответная система первого уровня понимания; классификация вопросительных предложений, пригодная для последующего использования в диалоговых приложениях; система информационного поиска, опирающаяся на семантические формулы слов документов коллекции; модуль поиска связанных слов; контекстно-ориентированный электронный тезаурус; система поиска плагиата в текстах на русском языке, использующая систему классов как основу модуля токенизации; рабочая модель системы машинного перевода.

В настоящее время наиболее приоритетным направлением исследований автора данной работы является машинный перевод. Мы пытаемся привлечь внимание зарубежных специалистов к нашим идеям. Сотрудничая с носителями иностранных языков, мы надеемся достичь более глубокого понимания проблем машинного перевода и добиться качественных результатов.

Библиография Мозговой, Максим Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. MacDonaldN. Language Translation by Machine — a Report of the First Successful Trial // Computers and Automation. — 1954. — Vol. 3(2). — P. 6-10.

2. Вебсайт компании: http://www.promt.ru

3. Разинов П.А., Афанасьева В.Н. Финский язык для начинающих. — СПб: М. Г. В., 2001, — 270 с.

4. McCarthy!, Minsky M.L., Rochester N., Shannon C.E. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence. — Dartmouth, 1955.

5. Джонс M.T. Программирование искусственного интеллекта в приложениях. — М.: ДМК Пресс, 2004. — 312 с.

6. Афонин B.JL, Макушкин В.А. Интеллектуальные робототехнические системы. — М.: ИНТУИТ, 2005. — 208 с.

7. Хомский Н. Аспекты теории синтаксиса. — М.: Изд-во БГК им. И.А. Бодуэна Де Куртенэ, 1999. — 235 с.

8. Мельчук И.А. Опыт теории лингвистических моделей «смысл О текст»: семантика, синтаксис. — М.: Наука, 1974. — 314 с.

9. Мельчук И.А. Русский язык в модели «смысл <£> текст». — М.: Языки русской культуры, 1995. — 682 с.

10. CharniakE. Statistical Parsing with a Context-free Grammar and Word Statistics // In Proc. of the 14th National Conference on Artificial Intelligence, CA, USA. — 1997. — P. 598-603.

11. Соловьёв В.Д. Возможный подход к универсализации модели «смысл <£> текст» // Труды международной конференции «Диалог». — 2003.

12. Тузов В.А. Математическая модель языка. — Л.: Изд-во Ленингр. унта, 1984. — 176 с.

13. Дерновой Г. О пользе случайностей // Компьютерра. — 2002. —N25.

14. Вебсайт проекта «SemLP-технология»: http://www.semlp.com

15. ЧеповскийА. Неразрешимая проблема компьютерной лингвистики // Компьютерра. — 2002. — N 30.

16. Uchida Н., Zhu М., Delia Senta Т. The UNL, a Gift for a Millennium. — Tokyo: UNU Press, 1999.

17. Молчанов А. Системное программное обеспечение: учебник для вузов. — СПб.: Питер, 2003. — 396 с.

18. Мозговой М.В. Классика программирования: алгоритмы, языки, автоматы, компиляторы. Практический подход. — СПб.: Наука и Техника, 2006. —320 с.

19. Вебсайт проекта OpenNLP: http://opennlp.sourceforge.net

20. Marcus М.Р., Santorini В., Marcinkiewicz М.А. Bulding a Large Annotated Corpus of English: the Penn Treebank // Computational Linguistics. — 1993. — Vol. 19. — P. 313-330.

21. Тузов В.А. Компьютерная семантика русского языка. — СПб.: Изд-во СПбГУ, 2004. —400 с.

22. Weizenbaum J. ELIZA — a Computer Program for the Study of Natural Language Communication between Man and Machine // Communications of the ACM. — 1966. — Vol. 9(1). — P. 35-36.

23. Корхов А.В. Метод построения вопросно-ответной системы с использованием математической формализации русского языка // Труды XXXII научной конференции факультета ПМ-ПУ СПбГУ. — 2001.

24. Winograd Т. Five Lectures on Artificial Intelligence / In Zampolli A. (ed.). Linguistic Structures Processing. — Amsterdam: North-Holland, 1977. — P. 399-520.

25. Scott S., Gaizauskas R. QA-LaSIE: a Natural Language Question Answering System // In Proc. of the 14th Biennial Conference of the Canadian Society on Computational Studies of Intelligence. — 2001. — P. 172-182.

26. Moldovan D., Harabagiu S., Pasca M., et al. Lasso: a Tool for Surfing the Answer Net//TREC-8. — 1999. — P. 175-183.

27. Grinberg D., Lafferty J., Sleator D. A Robust Parsing Algorithm for Link Grammars // In Proc. of the 4th International Workshop on Parsing Technologies, Prague, Czech Republic. — 1995. — P. 111-125.

28. Fellbaum C.D. (ed). WordNet: an Electronic Lexical Database. — Cambridge: The MIT Press, 1998. — 423 p.

29. Edmonds Ph., Kilgarriff A. (eds). Journal of Natural Language Engineering (Special Issue Based on Senseval-2). — 2003. — Vol. 9(1).

30. Мозговой M.B. Простая вопросно-ответная система на основе семантического анализатора русского языка // Вестник СПб университета. — 2006. — сер. 10. — вып. 1. — С. 116-122.

31. Грамматика современного русского литературного языка / Под ред. Шведовой Н.Ю. — М.: Наука, 1970. — 768 с.

32. Nurnberger A., DetynieckiM. (eds). Adaptive Multimedia Retrieval. — Hamburg: Springer, 2004. — 227 p.

33. Page L., Brin S., Motwani R., and Winograd T. The PageRank Citation Ranking: Bringing Order to the Web / Technical Report 1999-66, Stanford Digital Library Technologies Project. — 1999.

34. Broder A. et al. Graph Structure in the Web // Computer Networks. — 2000. — Vol. 33. — P. 309-320.

35. Вебсайт проекта: http://www.isleuthhound.com

36. Вебсайт проекта: http://www.wizetech.com/ru/document-search

37. Salton G., Wong A., Yang C.S. A Vector Space Model for Information Retrieval // Journal of the American Society for Information Science. — 1975. —Vol. 18(11). —P. 613-620.

38. Witten I.H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques, 2nd Ed. — San Francisco: Morgan Kaufmann, 2005. — 525 p.

39. Мозговой M.B. Семантический анализатор и задача информационного поиска // Вестник СПб университета. — 2005. — сер. 10. — вып. 3. — С. 54-59.

40. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклад АН СССР. — 1965. — Т. 163. — вып. 4. — С. 845-848.

41. Новый объяснительный словарь синонимов русского языка / Под ред. Апресяна Ю.Д. — М.: Языки славянской культуры, 2003. — 624 с.

42. Bliwise R. A Matter of Honor // Duke Magazine. — 2001. — May-June Issue. — P. 2-7.

43. Brumfiel G. Physicist Found Guilty of Misconduct // Nature. — 2002. — September Issue. — P. 419-421.

44. Armstrong Atlantic State University Honor Code: http://www.sa.armstrong.edu/Activities/hccoc.htm

45. Gettysburg College Honor Code: http://www.gettysburg.edu/academics/acad/honorcode/constitution.html

46. Alaoutinen S., Kontro-Vesivalo N., Medvedev D., Voracek J., and UteshevA. Academic Honesty in Cross-Border Education — Opinions of Involved Students // In Proc. of the 34th Frontiers in Education Conference, Savannah, Georgia, USA. — 2004. — P. 20-25.

47. Mozgovoy M. Desktop Tools for Offline Plagiarism Detection in Computer Programs // Informatics in Education. — 2006. — Vol. 5(1). — P. 97-112.

48. Вебсайт службы: http://www.turnitin.com

49. Joy M., LuckM. Plagiarism in Programming Assignments // IEEE Transactions on Education. — 1999. — Vol. 42(2). — P. 129-133.

50. Baker B.S. On Finding Duplication and Near-Duplication in Large Software Systems // In Proc. of 2nd IEEE Working Conference on Reverse Engineering. — 1995. — P. 86-95.

51. Fredriksson К., Mozgovoy M. Sublinear Parameterized Single and Multiple String Matching. Technical Report A-2006-2, Department of Computer Science, University of Joensuu, March, 2006.

52. Belkhouche В., Nix A., Hassell J. Plagiarism Detection in Software Designs // In Proc. of the 42nd annual Southeast Regional Conference. — 2004. —P. 207-211.

53. Mozgovoy M., Tusov V., Klyuev V. Fast Semantics-Powered Plagiarism Detection System // Submitted for 2006 IEEE International Conference on Computer and Information Technology, Seoul, Korea, 2006.

54. Mozgovoy M., Fredriksson K., White D., Joy M., and Sutinen E. Fast Plagiarism Detection System // Lecture Notes in Computer Science. — 2005. — Vol. 3772, —P. 267-270.

55. Manber U., Myers G. Suffix Arrays: a New Method for On-line String Searches//In Proc. ofSODA'90. — 1990. — P. 319-327.

56. Кутарба А.Ю. Обработка англоязычных текстов на основе семантического словаря // Вестник СПб университета. — 2005. — сер. 10. — вып. 3. — С. 46-53.

57. Зализняк А.А. Грамматический словарь русского языка. — М.: Русские словари, 2003. — 800 с.

58. WliorfB. Language, Thought, and Reality: Selected Writings of Benjamin Lee Whorf. — Cambridge: The MIT Press, 1964. — 290 p.

59. Сепир Э. Статус лингвистики как науки / Сепир Э. Избранные труды по языкознанию и культурологии. — М.: Прогресс, 1993. — С. 259-265.

60. Вебсайт проекта: http://www.win32forth.org