автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Концептуальный анализ текстов в системах автоматической обработки научно-технической информации

кандидата технических наук
Козачук, Максим Вячеславович
город
Москва
год
2002
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Концептуальный анализ текстов в системах автоматической обработки научно-технической информации»

Оглавление автор диссертации — кандидата технических наук Козачук, Максим Вячеславович

Введение.

Глава 1. Автоматический концептуальный анализ текстов.

Постановка задачи.

Глава 2. Методы автоматического концептуального анализа текстов.

2.1. Автоматический концептуальный анализ текстов с контролем по тезаурусу.

2.2. Составление частотных словарей наименований понятий на основе концептуального анализа текстов с контролем по тезаурусу.

2.3. Автоматический концептуальный анализ текстов без контроля по тезаурусу.

2.4. Составление частотных словарей наименований понятий на основе концептуального анализа текстов без контроля по тезаурусу.

Глава 3. Применение методов автоматического концептуального анализа текстов в системе фразеологического машинного перевода RETRANS.

3.1. Общая характеристика системы фразеологического машинного перевода RETRANS.

3.2. Словари пользователей в системе фразеологического машинного перевода RETRANS.

Глава 4. Применение методов автоматического концептуального анализа текстов в системах классификации и поиска информации

4.1. Автоматическая классификация текстов.

4.2. Поиск информации в русскоязычных базах данных по запросам, сформулированным на иностранных языках.

Введение 2002 год, диссертация по документальной информации, Козачук, Максим Вячеславович

В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ. А это - задача чрезвычайной сложности.

Директор Института мозга человека академик Н.П. Бехтерева в своем ответе на вопрос корреспондента журнала "Предупреждение" о познаваемости человеческого мозга так характеризует уровень сложности этой проблемы: "Вы задаете очень непростой вопрос. Как известно, абсолютная истина недостижима, однако стремиться к ней - долг и обязанность человека. Я работаю над изучением мозга более полувека и сегодня считаю, что, как сказано в Писании, "тайна сия велика есть". Кроме того, связь мышления, сознания и души с бугорками и извилинами нашего серого вещества не настолько прямая и непосредственная, как того хотелось бы строгим материалистам ("Предупреждение", № 3, 2000 г., стр. 4, 5).

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Этими проблемами занимается наука компьютерная лингвистика. Центральными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов и проблема синтеза речи. Эти проблемы возникают при решении ряда прикладных задач, например, задач автоматического анализа и синтеза устной речи, автоматического извлечения информации из текстов, автоматического перевода текстов с одних естественных языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования документов, их автоматического реферирования, их поиска и др.

В языке и речи в качестве единиц смысла могут выступать единицы различного уровня: морфемы (корни слов, их суффиксы и префиксы), слова, словосочетания, фразы, сверхфразовые единства. Эти единицы в совокупности представляют собой иерархическую систему, в которой смысловое содержание единиц более высокого уровня не сводимо или не полностью сводимо к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не всегда может быть "вычислен" на основе информации о смысле единиц более низкого уровня и информации о связях между этими единицами). Минимальной единицей, обозначающей понятие, является слово, но большинство понятий обозначается устойчивыми словосочетаниями и фразами.

В системах автоматической обработки текстовой информации в качестве средств манипулирования единицами языка и речи могут использоваться процедуры морфологического, семантико-синтаксического и концептуального анализа и синтеза. Морфологическому и семантико-синтаксическому анализу и синтезу посвящена обширная литература. Вопросы концептуального анализа и синтеза текстов с учетом наличия в них смысловых единиц различных уровней изучены значительно меньше. Одной из причин такого положения является то, что среди большинства лингвистов (и, тем более, не лингвистов) бытовало мнение, что словосочетания, встречающиеся в языке, можно разделить на два класса: на "свободные" и "несвободные" словосочетания. При этом считалось, что основными единицами, обозначающими понятия, являются слова, а смысл словосочетаний и фраз может быть, как правило, выражен через смыслы составляющих их слов (в качестве исключения рассматривалось лишь ограниченное число "несвободных" словосочетаний - идиом).

Другой точки зрения придерживается профессор Белоногов Г.Г. Он считает, что несвободными словосочетаниями являются не только идиоматические выражения, но и все устойчивые фразеологические единицы языка и речи (а в развитых языках их насчитывается сотни миллионов). Слова, входящие в состав устойчивых фразеологических единиц, связаны друг с другом "железными цепями" соответствующих им мыслительных образов-понятий. Эта несвобода как раз и позволяет людям понимать друг друга. Мы разделяем эту точку зрения.

Как указано в названии диссертации, основным предметом нашего рассмотрения являются методы автоматизации концептуального (понятийного) анализа текстов. Задачей концептуального анализа является выделение из текстов наименований понятий и определение синтагматических и парадигматических отношений между ними. Такая задача ставилась и ранее в связи с разработкой систем машинного перевода текстов с одних естественных языков на другие, систем автоматизированного поиска информации по запросам на естественном языке и диалоговых вопросно-ответных систем. В частности, эти методы рассматривались в работах И.А. Мельчука [63], Т. Винограда [41] и Р. Шенка [88]. В рамках перечисленных и других исследований была проведена большая работа по постановке и решению этой задачи. Но все они страдали одним общим недостатком: ориентацией преимущественно на слово как на основную единицу языка и речи.

Разработка методов автоматического концептуального анализа текстов в полном объеме с учетом наличия в них единиц смысла различных уровней - сложная и трудная задача. Ее решение под силу только крупным научным коллективам. Поэтому мы ограничили сферу наших исследований более узкой задачей - разработкой методов автоматического выделения наименований понятий из текстов и разработкой некоторых приложений этих методов в системах автоматической обработки научно-технической информации.

С учетом вышеизложенного, целью исследований в настоящей работе является разработка методов автоматического концептуального анализа текстов и выявление возможностей их применения в системах автоматической обработки научно-технической информации.

Предмет исследования - понятийный (концептуальный) состав современных научно-технических текстов и средства его выражения (обозначения).

Методы исследования:

• разработка алгоритмов автоматического концептуального анализа текстов и их моделирование на ЭВМ;

• применение разработанных методов концептуального анализа для составления частотных словарей наименований понятий по научно-техническим текстам большого объема и оценка статистических характеристик этих словарей;

• применение методов концептуального анализа в системах автоматической обработки научно-технической информации и оценка их эффективности.

Основные научные результаты работы

1. Разработаны два метода автоматического концептуального анализа текстов: с контролем по тезаурусу и без контроля по тезаурусу. Оба метода реализованы в виде программных комплексов, работающих на ПЭВМ.

2. С помощью методов, перечисленных в п. 1, проведены масштабные статистические исследования научно-технических текстов. В результате этих исследований составлен ряд частотных словарей наименований понятий по русским и английским текстам общим объемом более 442 мегабайта. Суммарный объем частотных словарей, составленных по русским текстам, превышает 17 млн лексических единиц (словосочетаний и слов), а суммарный объем частотных словарей, составленных по английским текстам, - 11 млн лексических единиц.

3. Для эмпирических распределений частот появления наименований понятий в текстах подобраны аппроксимирующие их аналитические выражения и оценены их параметры. Во всех случаях средняя относительная ошибка аппроксимации не превышала 6,4%.

4. Для системы фразеологического машинного перевода RETRANS автором диссертации разработан оригинальный комплекс алгоритмов и программ, обеспечивающий создание, ведение и настройку словарей пользователей в интерактивном режиме. Это создает широкие возможности по настройке этой системы на перевод текстов различной тематики.

5. На основе методов концептуального анализа автором, совместно с другими исполнителями, разработана система автоматической классификации текстов и система поиска информации в русскоязычных базах данных по запросам на английском языке.

Научная новизна работы

В диссертации предложены оригинальные методы автоматического концептуального анализа, которые позволили провести масштабные статистические исследования современных русских и английских научно-технических текстов и получить представление о законах распределения в них наименований понятий (словосочетаний и слов).

Практическая значимость работы

Предложенные автором методы концептуального анализа доведены до уровня программных продуктов, которые могут использоваться в различных системах автоматической обработки информации (в системах автоматической классификации текстов, их автоматического реферирования и индексирования, автоматического перевода с одних естественных языков на другие, автоматического поиска и т. п.). В диссертации приведен ряд примеров такого использования.

Апробация работы. Основные результаты настоящего диссертационного исследования опубликованы в четырех статьях и в одном научном отчете. Они неоднократно обсуждались на научных семинарах. Разработанные автором методы концептуального анализа текстов и программный комплекс для создания и ведения словарей пользователей используются в системе фразеологического машинного перевода RETRANS.

Диссертация состоит из введения, четырех глав, заключения, списка литературы и семнадцати приложений. В первой главе рассматриваются теоретические вопросы, связанные с определением основных единиц языка и речи, выражающих понятия, и делается

Заключение диссертация на тему "Концептуальный анализ текстов в системах автоматической обработки научно-технической информации"

Выводы

1. Проблема автоматической классификации текстов относится к числу трудных проблем моделирования интеллектуальной деятельности человека. Трудность ее решения обусловлена тем, что признаки, определяющие сходство и различие текстов, весьма многочисленны, а формы их представления - многообразны. Для решения этой проблемы необходимо создавать процедуры семантико-синтаксического анализа текстов и составлять словари наименований понятий большого объема.

Группой научных сотрудников при участии автора диссертации (см. [25]) предпринята попытка решения проблемы автоматической классификации текстов путем их концептуального анализа и сопоставления распределений вероятностей появления концептов в анализируемых текстах с распределениями вероятностей их появления в текстах, заведомо принадлежащих к определенным классам. Этой группой разработана концепция автоматической классификации текстов. Составлены частотные словари ключевых слов и словосочетаний по поисковым образам документов, извлеченным из баз данных ВИНИТИ. На основе частотных словарей составлен машинный словарь для автоматической классификации. Построена программная модель системы автоматической классификации. Опытная эксплуатация этой модели подтвердила правильность принципов, положенных в ее основу.

2. При участии автора проводились также работы по созданию системы автоматизированного поиска информации в русскоязычных базах данных по запросам на английском языке [26, 27]. В ее основу были положены принципы концептуального анализа текстов с контролем по тезаурусу. Система была закончена разработкой в 2000 году и установлена на сервере ВИНИТИ. Опыт ее эксплуатации подтвердил реальность возлагавшихся на нее надежд. В качестве дальнейшей перспективы в настоящей главе рассмотрены принципы построения системы поиска информации в русскоязычных базах данных по запросам, сформулированным на основных европейских языках, с выдачей результатов поиска на английском и на русском языках.

Заключение

1. При создании систем автоматической обработки текстовой информации важно определиться: что считать основными единицами языка и речи? При этом естественно предъявить к таким единицам два требования: 1) они должны быть единицами смысла - то есть обозначать некоторые понятия; 2) они должны быть достаточно устойчивыми - то есть должны достаточно часто встречаться в различных контекстах. Из набора единиц смысла, которыми обычно оперируют лингвисты (морфемы, слова, словосочетания, фразы, сверхфразовые единства), этим условиям отвечают только слова, словосочетания и короткие фразы (которые по существу также являются словосочетаниями).

Минимальной единицей, обозначающей понятие, является слово, но большинство понятий обозначается словосочетаниями. Следовательно, в системах автоматической обработки текстовой информации в качестве основных единиц языка и речи, обозначающих понятия, следует считать устойчивые словосочетания и слова при ведущей роли словосочетаний.

Изучение структуры наименований понятий в словарях, составленных человеком, показывает, что их длина колеблется в пределах от одного до пятнадцати слов; причем 93-99% наименований имеют длину от одного до пяти слов. Наиболее часто встречаются двух- и трехсловные словосочетания.

2. При автоматической "смысловой" обработке информации необходимо, как минимум, уметь выделять наименования понятий из текстов. При этом определение границ слов не представляет затруднений, так как в современной письменной речи они отмечены пробелами и разделительными знаками (знаками препинания, скобками и др.), в то время как словосочетания, обозначающие понятия, не имеют формально выраженных границ. Их границы "отмечены" только в сознании человека.

Желательно также с той или иной степенью дифференциации уметь определять отношения между понятиями в текстах (так называемые ситуационные или синтагматические отношения) и в системе языка и мышления, независимо от текста (так называемые ассоциативные или парадигматические отношения). Это по существу и будет концептуальным анализом текстов в широком смысле этого термина. В настоящей диссертации рассматриваются методы автоматического концептуального анализа текстов преимущественно в более узком смысле - как методы автоматического определения (распознавания) границ наименований понятий в текстах.

3. Автором разработаны и на большом текстовом материале исследованы два метода автоматического концептуального анализа текстов: метод анализа с контролем по тезаурусу и метод анализа без контроля по тезаурусу. Эти методы оказались эффективными и нашли практическое применение в системе фразеологического машинного перевода RETRANS, в системе автоматической классификации текстов и в системе поиска информации в русскоязычных базах данных по запросам на английском языке.

Библиография Козачук, Максим Вячеславович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Большой энциклопедический словарь "Языкознание". Изд. "Большая российская энциклопедия", Москва, 2000.

2. Вопросы информационной теории и практики, № 53. Автоматизированная словарная служба. Автоматическое индексирование документов. Под ред. проф. Г.Г. Белоногова, ВИНИТИ, 1985 г.

3. Вопросы информационной теории и практики, № 58. Компьютерная лингвистика в системе научно-технической информации. Под ред. проф. Г.Г. Белоногова, ВИНИТИ, 1989 г.

4. Действующие системы машинного перевода и автоматические словари. Обзорная информация, сер. "Машинный перевод и автоматизация информационных процессов", вып. 3, ВЦП, Москва, 1979 г.

5. Лингвистические исследования по машинному переводу. Сообщения ОМАИР, вып. 2, ВИНИТИ, 1961.

6. Промышленные системы машинного перевода. Обзорная информация. Сер. "Машинный перевод и автоматизация информационных процессов", вып. 17, 1979 г., вып. 20, 1991 г., ВЦП, Москва.

7. Абрамова Н.Н., Бевзенко Е.А., Зеленков Ю.Г. Алгоритм нормализации именных словосочетаний. Сб. "Вопросы информационной теории и практики", № 53, ВИНИТИ, 1985 г.

8. Абрамова Н.Н., Белоногов Г.Г., Глобус Е.И., Кузнецов Б.А., Поздняк М.В. Ядерный машинный политематический словарь ключевых слов и словосочетаний по естественным и техническим наукам. Сб. "Вопросы информационной теории и практики", № 58, ВИНИТИ, 1989.

9. Абрамова Н.Н., Бевзенко Е.А., Белоногов Г.Г к др. Автоматическое индексирование документов ключевыми словами и словосочетаниями. Сб. "Научно-техническая информация", сер. 2, № 4, ВИНИТИ, 1989 г.

10. Алъшванг В.Д. и др. Математическое обеспечение системы автоматического перевода ЭТАП-1. Сб. "Прикладные и экспериментальные лингвистические процессоры". ВЦ СО АН СССР, Новосибирск, 1982 г.

11. Апресян Ю.Д. Идеи и методы современной структурной лингвистики (краткий очерк). "Просвещение", Москва, 1966 г.

12. Апресян Ю.Д. Лексическая семантика и синонимические средства языка. "Наука", Москва, 1974 г.

13. Апресян Ю.Д. и др. Лингвистическое обеспечение системы автоматического перевода ЭТАП-2. "Наука", Москва, 1989 г.

14. Апресян Ю.Д. и др. Лингвистическое обеспечение системы французско-русского автоматического перевода ЭТАП-1. II. Французская морфология. Французский комбинаторный словарь. Препр. Ин-тарус. яз. АН СССР, № 154, 1984 г.

15. Арский Ю.М., Гиляревский Р.С., Черный А.И., Туров КС. Ифосфера: информационные структуры, системы и процессы в науке и обществе. М., ВИНИТИ, 1996 г.

16. Бакулов А.Д., Леонтьева Н.Н. Теоретические аспекты машинного перевода. В кн. Справочник. Искусственный интеллект. "Радио и связь", Москва, 1990 г.

17. П.Бевзенко Е.А., Зеленков Ю.Г. Синтаксическая структура словосочетаний. Сб. "Вопросы информационной теории и практики", № 53, ВИНИТИ, 1985 г.

18. Бежанова О.М. Система электронных словарей Polyglossum. Компьютеры + Программы, № 1, 1996 г.

19. Белоногое Г.Г Числовое кодирование понятий. Энциклопедия "Автоматизация производства и промышленная электроника", т. 4, 1964.

20. Белоногое Г.Г., Новоселов А.П., Рыбаков Б.П. Шемакин Ю.И. Автоматическое индексирование документов и запросов. Сб. "Научно-техническая информация", сер. 1, № 7, ВИНИТИ, 1973.

21. Белоногое Г.Г., Новоселов А.П. О принципах построения автоматизированных информационных систем. Сб. "Семиотика и информатика", тринадцатый выпуск, ВИНИТИ, 1979.

22. Белоногое Г.Г., Загыка Е.А., Калинин Ю.П., Хорошилов А.А. Автоматизация лингвистической обработки словарей. Сб. "Научно-техническая информация", сер. 2, № 11, ВИНИТИ, 1983.

23. Белоногое Г.Г., Гиляревский Р.С., Козачук М.В., Новоселов А.П., Хорошилов А.А., Автоматическая классификация текстов. Сб. "Международный форум по информ.", Том 26, № 2, ВИНИТИ, 2001.

24. Белоногое Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А., Козачук М.В., Рыжова Е.Ю., Гусъкова Л.Ю. Каким быть машинному переводу в XXI веке. Сб. "Перевод: традиции и современные технологии". Изд. ВЦП, Москва, 2002.

25. Белоногое Г.Г. О некоторых статистических закономерностях в русской письменной речи. Вопросы языкознания, N 1, 1962 г.

26. Белоногое Г.Г., Богатырев В.И. Автоматизированные информационные системы. "Сов. радио", Москва, 1973 г.

27. Белоногое Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации. Сб. "Проблемы кибернетики", № 28, 1974 г.

28. Белоногое Г.Г., Загика Е.А., Новоселов А.П. Автоматизация лингвистической обработки словарей в системе научно-технической информации. "Вопросы кибернетики". Прикладные аспекты лингвистической теории. Под редакцией акад. A.JI. Ершова. М., ВИНИТИ, 1987.

29. Белоногое Г.Г., Зеленков Ю.Г. Еще раз о принципе аналогии в морфологии. Сб. "Научно-техническая информация", Серия 2, № 3, ВИНИТИ, 1995 г.

30. Белоногое Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. "Наука", М., 1983.

31. Белоногое Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошшов Ал-др А., Хорошилов Ал-сей А. Системы фразеологического машинного перевода. Состояние и перспективы развития. Сб. "Научно-техническая информация", сер. 2, № 12, ВИНИТИ, 1998 г.

32. Белоногое Г.Г., Зеленков ЮТ., Новоселов А.П., Хорошшов Ал-др А., Хорошилов Ал-сей А. Метод аналогии в компьютерной лингвистике. Сб. "Научно-техническая информация", сер. 2, № 1, ВИНИТИ, 2000 г.

33. Белоногое Г.Г., Быстрое И.И., Козачук М.В., Новоселов А.П., Хорошилов А.А. Автоматический концептуальный анализ текстов. Сб. "Научно-техническая информация", Серия 2, № 10, ВИНИТИ, 2002 г

34. Бэкон Фрэнсис. Вторая часть сочинения, называемая Новый Органон, или истинные указания для истолкования природы. В кн. "Фрэнсис Бэкон. Сочинения в двух томах". Второе исправленное и дополненное издание. Том 2. Изд. "Мысль", Москва, 1978.

35. Виноград Т. Программа, понимающая естественный язык. М., "Мир", 1976.

36. Гумбольдт Вильгельм фон. О различии строения человеческих языков и его влиянии на духовное развитие человечества. Избранные труды по языкознанию. Пер. с нем. Г.В. Рамишвили. Изд."Прогресс", Москва, 1984 г.

37. Жуков Д. А. Мы переводчики. "Знание", Москва, 1975 г.

38. Зарецкий Д.А. Дистрибутивно-статистический метод установления парадигматических отношений между понятиями. Сб. "Вопросы информационной теории и практики", №58, ВИНИТИ, 1989 г.

39. Звегинцев В.А. История языкознания XIX-XX веков в очерках и извлечениях. В 2-х частях. "Просвещение", Москва, 1964-65 гг.

40. Капанидзе О.Г. Современные зарубежные системы машинного перевода. Обзорная информация. Сер. "Машинный перевод и автоматизация информационных переводов", вып. 17, ВЦП, Москва, 1989 г.

41. Козачук М.В., Хорошилов А.А. Лексическое богатство поисковых образов документов в базах данных ВИНИТИ. Материалы международной конференции НТИ-2000, ВИНИТИ, 2000 г.

42. Кулагина О.С. Исследования по машинному переводу. "Наука", Москва, 1979 г.

43. Кулагина О.С. Морфологический анализ русских глаголов. Препринт ИПМ им. М.В. Келдыша, АН СССР, № 195, 1985.

44. Кулагина О.С. Морфологический анализ русских именных форм. Препринт ИПМ им. М.В. Келдыша, АН СССР, № 10, 1986.

45. Кулагина О.С. Об автоматическом синтаксическом анализе руссских текстов. Препринт ИПМ им. М.В. Келдыша, АН СССР, № 205, 1987.

46. Кулагина О.С., Мельук И.А. Машиный перевод с французского языка на русский. "Вопросы языкознания", № 5, 1956.

47. Лаврентьева Г.А. О втором Крэнфилдском эксперименте. Сб. "Научно-техническая информация", сер. 2, № 11, ВИНИТИ, 1969.

48. Лайонз Дэю. Введение в теоретическую лингвистику. "Прогресс", Москва, 1975 г.

49. Лахути Д.Г., Федоров Е.Б., Добронравов Н.С., Пархоменко В.Ф. Автоматическое индексирование текстов в документальных ИПС. Сб. "Кибернетическая лингвистика". М., "Наука", 1983.

50. Лахути Д.Г. Проблемы интеллектуализации информационно-поисковых систем. Диссертация в форме научного доклада на соискание ученой степени доктора технических наук. ВИНИТИ, М., 1999.

51. Лахути Д.Г., Бтоменау Д.И., Гендина Н.И., Добронравов Н.С., Леонов В.П., Федоров Е.Б. Формализованное реферирование с использованием словесных клише. ВИНИТИ, НТИ, сер. 2, №2, 1981.

52. Лубенская С.И. Русско-английский фразеологический словарь. Изд. "Языки русской культуры", М., 1997.

53. ЛурияА.Р. Язык и сознание. Изд. "Феникс", г. Ростов-на-Дону, 1998.

54. Марчук Ю.Н., Тихомиров БД., Щербинин В.И. Система машинного перевода с английского языка на русский. Сб. "Машинный перевод и автоматизация информационных процессов", Москва, 1975 г.

55. Марчук Ю.Н. Проблемы машинного перевода. "Наука", Москва, 1983 г.

56. Мельчук И.А. Морфологический анализ при машинном переводе (преимущественно на материале русского языка). В сб. "Проблемы кибернентики", вып. 6, "Физматгиз", 1961.

57. Мельчук И.А. Опыт разработки фрагмента системы понятий и терминов для морфологии. Сб. "Семиотика и информатика", вып. 6, 1975 г.

58. Мельчук И.А. Опыт теории лингвистических моделей "Смысл <=> текст". "Наука", Москва, 1974 г.

59. Миллъ Д. С. Система логики. Изложение принципов доказательства в связи с методами научного исследования. Издание магазина "Книжное дело", дом Бенкендорф, г. Москва, 1900 г.

60. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. "Наука", Москва, 1968 г.

61. Михайлов А.И., Черный А.И., Гиляревский Р.С. Научные коммуникации и информатика. М„ "Наука", 1976.

62. Московия В.А. Дистрибутивно-статистический метод построения тезаурусов: современное состояние и перспективы. Сб. "Научно-техническая информация", сер. 2, №№ 3-4, ВИНИТИ, 1972 г.

63. Новоселов А.П., Хорошилов А.А. Алгоритм автоматической нормализации слов. Сб. "Вопросы информационной теории и практики", N 53, ВИНИТИ, 1985 г.

64. Ю.Панов Д.Ю., Ляпунов А.А., Мухин КС. Автоматизация перевода с одного языка на другой. Сессия по научным проблемам автоматизации производства. Изд-во АН СССР, 1956.

65. Панов Д.Ю. Автоматический перевод. Изд-во АН СССР, 1956.

66. Пась Р. Состояние и тенденции развития машинного перевода в мире. Сб. "Проблемы информационных систем", № 10, МЦНТИ, 1991 г.

67. Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). Изд. РГПУ им. А.И. Герцена, Санкт-Петербург, 1999.

68. Пиотровский Р.Г. Новые горизонты машинного перевода. Сб. "Научно-техническая информация", сер. 2, № 1, ВИНИТИ, 2002.

69. Пиотровский Р.Г., Бектаев КБ., Пиотровская А.А. Математическая лингвистика. "Высшая школа", Москва, 1977 г.

70. Пиотровский Р.Г. Инженерная лингвистика и теория языка. "Наука", Москва, 1979 г.

71. Попов Э.В. Общение с ЭВМ на естественном языке. "Наука", Москва, 1982 г.

72. Поспелов Г.С. Искусственный интеллект. Новая информационная технология. "Наука", Москва, 1986 г.

73. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 1. // НТИ. Сер. 2.-1998. № 1.

74. Сиокум Дэю. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития. Сб. "Новое в зарубежной лингвистике", "Прогресс", Москва, 1989 г.

75. Соссюр Фердинанд де. Курс общей лингвистики (в кн. "Труды по языкознанию", Изд. "Прогресс",. Москва, 1977,. стр. 31-269).

76. Страуструп Б. Язык программирования С++, спец. изд. / пер. с англ. М.; СПб.: "Издательство БИНОМ" - "Невский Диалект", 2001 г.

77. Убин И.И. Автоматический переводной словарь. Принципы построения. ВЦП, Москва, 1989 г.

78. Убин И.И. ЭВМ и словарь. ВЦП, Москва, 1992 г.

79. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. Сб. "Перевод в современном мире". М., ВЦП, 2001, стр. 60-69.

80. Шенк Р. Обработка концептуальной информации. Изд. "Энергия", Москва, 1980.

81. Якушин Б.В. Слово, Понятие, Информация. "Молодая гвардия", 1975.

82. Отчет по теме 0.80.18.08.02.05.Н1: "Разработать типовые системы автоматического индексирования документов для АИПС разного типа". ВИНИТИ, 1988.

83. Machine translation of languages. Edited by W. Locke &Booth, 1955.

84. Bar-Hillel Y. Can translation be mechnised? "American scientist", 1954, 42, № 2, p.p. 248260.

85. Booth A. Calculating machines and mechanical translation. "Discovery", 1954, 15, № 7, p.p. 280-285.

86. Elliston J.S.G. Computer-aided translation: a business viewpoint. In Barbara M. Shell (ed.) Translating and the Computer, Amsterdam (1979): North-Holland, p.p. 149-158.

87. Harold L. Somers. Current Research in Machine Translation.In.: The Third International Conference on Theoretical and Methological Issues in Machine Translation of Natural Language, 11-13 June 1990<Austin, Tex.

88. Hutchins W.J. Machine translation: Past, present, future. Chichester (1988): Ellis Horwood.

89. Hutchins W.J. Recent Developments in Machine Translation. A review of the last five years. Jn., New Directions in Machine Translation, Coference proceedings, Budapest, Aug 18-19, 1988.

90. JEIDA (Japan Electronic Industry Development Association). A Japanese view of Machine Translation in light of the considerations and recomendations reported by ALP AC, U.S.A., Tokyo, July 1989.

91. Lehmann E. Computersimulation des Verstehens natuerlcher Sprache. Nova Acta Leopold. 1981, 54, №245.

92. Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle, in Artificial and Human Intelligence, ed. A. Elithorn andR. Banerji, p.p. 173-180, North Holland, 1984.

93. Nirenburg Sergei (ed.) Machine Translation: Theoretical and methodological issues, Cambridge (1987): Cambridge University Press.

94. Oettinger A. Automatic Language Translation. Harward Monographs in Applied Science. Nassachusetts. 1960.

95. Practical Experience of Machine Translation / V. Lawson (ed.). Amsterdam etc.: North-Holland Publ. Co., 1982.

96. Proceedings of the National Symposium on Machine Tanslation. Ed. by H.P. Edmundson, Englewood, Prentice-Hall, 1961.

97. Slocum Jonathan. A survey of Machine Translation: its history, current status, and future prospects. Computational linguistics 11 (1985), p.p. 1-17.

98. Schank R.C., Lebowitz M., Birnbaum L. An integrated understander. Amer. J. Comput. Ling., 1980, 6, № 1.

99. Vauquois Bernard, Christian Borret. Automated translation at Grenoble University. Computational Linguistics 11 (1985), p.p. 28-36.

100. Webb Lynn E. Advantages and Disadvantages of Translation Memory: a Cost/Benefit Analysis. San Francisco State University. 1992.

101. Wettler M. Semantisches Langezeit-gedaechtnis und das Verstehen von Sprache. Working Papers, Fondatione Dalle Moll, 1979.