автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Теоретические основы и методы построения систем фразеологического машинного перевода
Автореферат диссертации по теме "Теоретические основы и методы построения систем фразеологического машинного перевода"
На правах рукописи УДК [801.73:681.3] (043.3)
ХОРОШИЛОВ Александр Алексеевич
ТЕОРЕТИЧЕСКИЕ ОСНОВЫ И МЕТОДЫ ПОСТРОЕНИЯ СИСТЕМ ФРАЗЕОЛОГИЧЕСКОГО МАШИННОГО ПЕРЕВОДА
Специальность - 05.13.17 Теоретические основы информатики
АВ ТО РЕФЕРАТ
диссертации на соискание ученой степени доктора технических наук
Москва 2006
Работа выполнена в Главном научно-исследовательском вычислительном центре Федеральной налоговой службы Российской Федерации
Официальные оппоненты:
Доктор технических наук, профессор Лахути Делир Гасемович
Доктор технических наук, профессор Черный Аркадий Иванович
Доктор технических наук, профессор Шемакин Юрий Иванович
Ведущая организация: Институт научной информации
по общественным наукам РАН
диссертационного г, I в Институте проблем информатики
РАН по адресу: 11933, Москва, ул.Вавилова, д.44, корп. 2. Отзывы в одном экземпляре просим направлять по указанному адресу.
С диссертацией можно ознакомиться в библиотеке Института проблем информатики РАН
Защита состоится
2006 г. в « |<5>> часов на заседании
Автореферат разослан
Ученый секретарь
диссертационного совета доктор технических наук профессор
С.Н. Гринченко
ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИ
Актуальность проблемы. Современное человеческое общество характеризуется высоким уровнем активности в различных областях деятельности (экономика, политика, наука, техника, культура и др.)- Это привело к быстрому росту объемов информации, циркулирующей между отдельными лицами и коллективами людей, и к трудностям по их освоению. Создалась ситуация, которую стали обозначать термином "информационный взрыв".
Положение осложнилось еще и тем, что между странами и народами существуют языковые барьеры, которые при возрастании потоков информации стало трудно преодолевать. Традиционные методы их преодоления (обучение языкам и переводческая деятельность) оказались недостаточными. Возникла необходимость искать альтернативные пути решения проблемы.
Возможность поиска новых путей решения проблемы появилась к середине 50-х годов прошлого столетия, когда были построены первые электронные вычислительные машины. Эти машины являются по существу универсальными алгоритмическими машинами, на которых можно решать не только "вычислительные" задачи, но и любые другие задачи, описываемые с помощью алгоритмов: логический вывод, распознавание образов, машинный перевод текстов, игра в шахматы и многие другие.
Перевод текстов с одних языков на другие - сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний предметных областей, к которым переводимые тексты относятся. Он осуществляется на основе восприятия и понимания человеком исходного текста и последующей передачи его содержания средствами выходного языка. При этом переводятся не столько значения слов и их последовательностей, сколько мыслительные образы, порождаемые в сознании переводчика под их воздействием.
Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит прежде всего от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. А эти законы пока еще недостаточно изучены. Поэтому, решая задачу машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. Этот опыт свидетельствует о том, что в процессе перевода текстов в качестве основных единиц смысла выступают прежде всего не отдельные слова, а фразеологические словосочетания, выражающие понятия. Именно понятия являются теми элементарными
мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.
Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его осуществления, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло более полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых - начала шестидесятых годов прошлого века.
Разочарование наступило уже через 12 лет после начала работ по машинному переводу, когда в 1966 г. был опубликован доклад Консультативного комитета по автоматической обработке текстовой информации (Automatic Language Processing Advisory Committee — ALPAC), созданного при Национальной академии наук и Национальном исследовательском комитете США. Этот комитет рассмотрел состояние и основные проблемы перевода текстов — в основном русскоязычных — на английский язык и на другие языки в США и в Западной Европе, в том числе с помощью ЭВМ. Комитет пришел к выводу, что "хотя в настоящее время и имеются системы, осуществляющие перевод обычных научных текстов с использованием машины, реального МП нет. Более того, нет никаких оснований считать, что он возникнет в недалеком будущем или вообще в какие-либо реально тонируемые сроки ".
В качестве второго авторитетного свидетельства неблагополучного состояния исследований и разработок в области машинного перевода можно рассматривать заявление руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото, сделанное им в одном из своих докладов, опубликованном в 1982 г. Он заявил следующее: "Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже". А в 1984 году он опубликовал статью, в которой предложил новую концепцию машинного перевода. Согласно этой концепции тексты должны переводиться по аналогии с другими текстами, ранее переведенными вручную.
До Макото Нагао аналогичные идеи высказывал профессор Белоногов Г.Г. В 1975 году он сформулировал концепцию фразеологического машинного перевода текстов, которую опубликовал в предисловии к книге Д. А. Жукова "Мы - переводчики" (Москва, изд. "Знание", 1975 г.). Главным тезисом этой концепции является утверждение, что при переводе текстов в качестве основных единиц
смысла следует рассматривать не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Отдельные слова также могут использоваться, но во вторую очередь.
В качестве пионеров машинного перевода в России выступили такие ученые как Панов Д.Ю., Ляпунов A.A., Мухин И.С., Вельская И.К. За ними последовали Кулагина О.С., Мельчук И.А., Моторин Ю.А., Марчук Ю.Н., Пиотровский Р.Г. и многие другие.
Надо отдать должное пионерам МП и их ближайшим последователям. Они немало сделали в области теории и практики машинного перевода. Но многие важнейшие проблемы ими не были решены. Например, до последнего времени неудовлетворительно решалась проблема выбора переводных эквивалентов для слов и словосочетаний исходного текста.
При решении этой проблемы стремились прежде всего получить грамматически правильный пословный перевод, а полисемия слов разрешалась в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно пословного перевода. Словосочетания здесь также использовались, но в меньшей степени.
На наш взгляд, семантико-синтаксический преимущественно пословный машинный перевод текстов не имеет перспективы, так как в естественных языках смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов, и при переводе он не может быть "вычислен" на основе синтаксических и семантических признаков этих слов. Поэтому концепция семантико-синтаксического преимущественно пословного перевода должна быть заменена на концепцию семантико-синтаксического преимущественно
фразеологического перевода. Такой подход в большей мере соответствует природе естественных языков.
Целью настоящего исследования является разработка теоретических основ и методов построения систем фразеологического машинного перевода текстов с одних естественных языков на другие (на примере русского и английского языков).
Предметом исследования - понятийный состав русских и английских текстов, их семантико-синтаксическая структура, структура переводных соответствий между наименованиями понятий.
В процессе работы над диссертацией использовались следующие методы исследования: 1) Выявление понятийного состава русских и английских текстов по их репрезентативным выборкам; 2) изучение
структуры переводных соответствий меяеду смысловыми единицами русского и английского языков и составление двуязычных фразеологических словарей; 3) моделирование на ЭВМ процедур фразеологического машинного перевода текстов с русского языка на английский и с английского на русский; оценка эффективности построенных моделей.
Основные научные результаты работы:
1. В диссертации дано теоретическое обоснование возможности создания систем фразеологического машинного перевода текстов с одних естественных языков на другие.
2. При участии автора (а последние пять лет и под его руководством) разработана и реализована в виде действующей компьютерной модели система фразеологического машинного перевода текстов с русского языка на английский и с английского на русский -система RETRANS.
3. Разработан ряд основополагающих принципов и методов построения систем фразеологического машинного перевода, в частности:
3.1. Методы автоматизированного составления и ведения фразеологических машинных словарей. На основе этих методов к концу 2005 г. были составлены русско-английский и англо-русский политематические машинные словари общим объемом более 6 млн. 400 тыс. словарных статей.
3.2. Методы семантико-синтаксического анализа и синтеза русских и английских текстов.
3.3. Принципы построения и алгоритмы функционирования интерфейса пользователя системы фразеологического машинного перевода, позволяющего быстро настраивать эту систему на перевод текстов различной тематики.
3.4 Принципы функционирования системы RETRANS в среде телекоммуникационных сетей типа Internet и Intranet, позволяющие осуществлять машинный перевод текстов в режиме удаленного доступа.
Научная новизна работы:
1. Научная новизна работы состоит прежде всего в том, что автором диссертации совместно с коллективом разработчиков впервые была предложена, обоснована и реализована в виде действующей компьютерной модели архитектура системы фразеологического машинного перевода текстов с русского языка на английский и с английского на русский. Тем самым была доказана возможность фразеологического машинного перевода текстов с одних языков на другие. Это создало реальные перспективы выхода из того тупика, в
4
котором в начале 80-х годов прошлого столетия оказались исследования и разработки по машинному переводу, ориентированные на семантико-синтаксический преимущественно пословный перевод.
2. Автором были разработаны оригинальные методы, алгоритмы и программы автоматизированного составления и ведения словарей для системы фразеологического машинного перевода и совместно с другими ее разработчиками были составлены русско-английский и англо-русский фразеологические машинные словари беспрецедентного объема - 2,6 млн. словарных статей каждый. Эти словари покрывают лексический состав современных текстов на 99,7% и представляют собой мощную двуязычную концептуальную модель широкого спектра областей человеческой деятельности.
Практическая значимость работы:
Полученные автором научные результаты позволили построить промышленную систему фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский (систему ИЕТКАНБ).
Первая промышленная версия этой системы была создана в 1993 году, а в 1996 году она была зарегистрирована в РосАПО (свидетельство об официальной регистрации № 960342 от 30.07.1996 г.). В дальнейшем система ЛЕТКЛЫЗ непрерывно совершенствовалась, создавались ее различные версии и в 2005 году она была зарегистрирована в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам под именем "Система фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский ГШТКАЫЗ-2005" (свидетельство об официальной регистрации № 2005612876 от 7.11.2005 г.). Система ИЕТИАИЗ обеспечивает такое качество перевода, которое позволяет ее использовать в различных государственных учреждениях России и за рубежом.
Апробация:
Результаты исследований и разработок автора опубликованы в 35-ти научных статьях и в одной монографии. Они неоднократно обсуждались на всероссийских и международных научных конференциях и реализованы в промышленных версиях системы фразеологического машинного перевода КЕТИЛЫЗ.
Личный вклад автора в исследования и разработки:
Автор в течение более двадцати лет работал в ВИНИТИ в научном коллективе, проводившем под руководством проф. Белоногова Г.Г. широкий спектр исследований и разработок в области компьютерной
лингвистики: автоматическое обнаружение и исправление орфографических ошибок в русских и английских текстах; автоматическая классификация документов, их автоматическое реферирование, индексирование и поиск; автоматическое составление различного рода словарей для систем автоматической обработки информации; машинный перевод текстов с русского языка на английский и с английского языка на русский.
Наиболее значительными являются исследования и разработки, выполненные автором в области фразеологического машинного перевода. Здесь он лично разработал методы, алгоритмы и программы автоматизированного составления и ведения фразеологических машинных словарей и методы семантико-синтаксического анализа и синтеза русских и английских текстов. С 2001 года и по настоящее время он осуществляет руководство всеми работами по дальнейшему развитию системы RE TRANS.
Структура и объем работы.
Диссертация состоит из введения, пяти глав, заключения и одиннадцати приложений. Во введении обосновывается актуальность темы диссертации, определяются цели и предмет исследования, кратко характеризуются его результаты и оценивается их теоретическая и практическая значимость. В первой главе обсуждаются различные точки зрения на статус единиц языка и речи и высказываются соображения по использованию этих единиц в системах автоматической обработки текстовой информации. Приводятся статистические данные о повторяемости в русских и английских текстах их отрезков различной длины, которые были получены путем анализа репрезентативных выборок из этих текстов.
Во второй главе излагается концепция фразеологического машинного перевода и указываются пути ее практической реализации. Описываются методы морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов.
В третьей главе рассматривается архитектура системы фразеологического машинного перевода и описывается порядок ее функционирования. Четвертая глава посвящена проблеме автоматизации составления и ведения словарей для систем фразеологического машинного перевода. Предлагаются методы решения этой проблемы. В пятой главе кратко излагается история создания системы RETRANS и описывается опыт ее промышленной эксплуатации.
В Заключении производится сравнение систем фразеологического машинного перевода и систем типа Translation Memory. Делается прогноз о дальнейших направлениях развития машинного перевода. В Приложении приводятся фрагменты машинных словарей, примеры
перевода текстов с английского языка на русский и с русского на английский и другие материалы, подтверждающие основные положения диссертации. Диссертация имеет объем 251 стр. и содержит 45 таблиц и 44 рисунка.
СОДЕРЖАНИЕ РАБОТЫ
Задача машинного перевода текстов с одних естественных языков на другие с начала ее постановки рассматривалась как одна из сложнейших задач, связанных с моделированием интеллектуальной деятельности человека. На рубеже 50-х и 60-х годов прошлого столетия она, наряду с задачами логического вывода, распознавания образов и игры в шахматы, была отнесена к числу задач, которые должны были решаться в рамках программы "Искусственный интеллект".
Как известно, естественный язык непосредственно связан с мышлением. Более того, как утверждают психологи, он является инструментом мышления. Они также утверждают, что естественный язык является второй сигнальной системой человека, функционирующей в тесном взаимодействии с его первой сигнальной системой. А единицы языка представляют собой сигналы, которые интерпретируются в "душе " человека с учетом всего комплекса знаний, которые он накопил в течение всей своей жизни, и с учетом тех сигналов, которые он получает из внешней среды и от своего организма. В "душе" человека функционирует некоторая динамическая "модель мира", подверженная постоянным изменениям. На базе этой модели и осуществляется интерпретация ("понимание") языковых сигналов.
При решении задачи машинного перевода текстов с одних языков на другие важно иметь четкие представления о природе языка и определиться со статусом различных единиц языка и речи. Этому посвящена первая глава диссертации, которая называется "Единицы языка и речи в системах автоматической обработки текстовой информации". В пей анализируются различные точки зрения по рассматриваемой проблеме и делаются следующие выводы:
1. Естественный язык представляет собой сложную систему, в которой, по выражению Ф. де Соссюра, "конкретные языковые сущности не даны нам в непосредственном наблюдении". Они доступны только на феноменологическом уровне, па уровне внешних проявлений. Эти внешние проявления могут наблюдаться человеком в форме речи — устной или письменной. На основе этих проявлений и строятся различные гипотезы об "устройстве языка".
2. Основными единицами языка и речи являются слова, словосочетания, обозначающие понятия, фразы и различного рода сверхфразовые единства (связный текст). Слова представляют собой минимальные единицы, обозначающие понятия, но большинство понятий
7
выражаются сочетаниями слов. При этом слова, входящие в состав наименований понятий, как правило, отражают лишь некоторые признаки понятий, но далеко пе исчерпывают их. То же самое следует сказать и о словах, входящих в состав фраз и сверхфразовых единств.
3. Как указывает известный лингвист В.А. Звегинцев, в человеческой речи (устной и письменной) всегда одновременно присутствуют две компоненты - видимый (или слышимый) текст и невидимый (и, соответственно, неслышимый) "подтекст", который пребывает в "душе" человека (в его сознании, подсознании и сверхсознании).
4. Современные системы автоматической обработки текстовой информации имеют дело только с одной компонентой языковых знаков - с означающими, с кодовыми обозначениями единиц языка и речи. А означаемые - соответствующие этим обозначениям мыслительные образы - в таких системах, как правило, никак не представлены. Они представлены в "душе" человека и включаются в коммуникативный процесс только при восприятии им языковых сигналов (сигналов второй сигнальной системы) или при их порождении. При этом инициируются сложнейшие психические процессы. Механизм этих процессов в современной психологии пока-что плохо изучен. Это следует хотя бы из следующих слов А.Р Лурия - автора монографии "Язык и сознание", посвященной проблеме отношения языка и сознания (Ростов-на-Допу, изд. "Феникс", 1998 г.): "Психология до сих пор еще пе располагает достаточно точными знаниями о том, чем характеризуются отдельные этапы сложнейшего процесса порождения высказывания."
5. В современных работах по "искусственному интеллекту" наметилась тенденция решать проблему моделирования процессов мышления двумя путями: путем разработки алгоритмов, описывающих эти процессы (rule based approach), и путем использования метода аналогии (example based approach). Поначалу казалось, что эти подходы противостоят друг другу. Позднее ученые пришли к выводу, что это совсем не так. Появились даже гибридные системы автоматической обработки информации, в которых оба эти подхода используются одновременно. Мы считаем указанную тенденцию правильной.
Систему единиц языка и речи можно представить в виде иерархической структуры, в которой единицы вышестоящих уровней включают в свой состав единицы нижестоящих уровней и сами входят в состав единиц более высоких уровней (например, морфемы входят в состав слов, слова - в состав словосочетаний, словосочетания - в состав фраз, фразы — в состав сверхфразовых единств). Однако смысл единиц более высокого уровня не сводим или не полностью сводим к смыслу единиц более низкого уровня. Он представляет собой единое целое, не делимое на части.
Конечно, составные части наименования каждой единицы более высокого уровня в какой-то мере, прямо или косвенно, отражают некоторые признаки понятия, обозначаемого этой единицей, но они далеко не исчерпывают ее содержания. Это особенно хорошо видно на примере морфем и слов. Например, в слове "из-мер-ени-е" только корневая морфема "мер" в какой-то степени отражает его содержание, остальные же морфемы (префикс "из" и суффиксы "ени" и "е") имеют настолько абстрактные значения, что с их помощью невозможно построить смысл слова "измерение ".
В случае слов и словосочетаний тезис о несводимости смысла единиц более высокого уровня к смыслу единиц более низкого уровня менее очевиден. Например, носителям русского языка кажется, что смысл таких словосочетаний, как "электронная вычислительная машина", "подводная лодка", "теория массового обслуживания", "сухопутные войска", "военно-воздушные силы", и смысл сложного слова "пылесос" складываются из смыслов входящих в их состав слов. На самом деле это не так. Например, русский термин "электронная вычислительная машина" обозначается на английском языке словом "computer" ("вычислитель"), в котором ничего "электронного" в явном виде не отмечается; русский термин "подводная лодка" — сложным словом "submarine" (буквально "под морем"), в котором понятие "лодка" отсутствует; термин "теория массового обслуживания" словосочетанием "queuing theory" ("теория очередей"), которое не содержит явных признаков понятия "массовое обслуживание"', термин "сухопутные войска" — сложным словом "Land-forces" ("наземные силы") без признаков "сухопутности"; термин "военно-воздушные силы" — словосочетанием "Air Forces" (буквально "воздушные силы"), в котором понятие "военный" в явном виде не обозначено; термин "пылесос" -словосочетанием "vacuum cleaner" (буквально "вакуумный чиститель"), в составе которого нет понятий "пыль" и "сосать".
В естественном языке, в котором "все связано со всем", понятия, как некоторые социально значимые устойчивые мыслительные образы, могут обладать огромным количеством признаков. Но этим мыслительным образам присваиваются наименования в виде отдельных слов или (значительно чаще) - в виде словосочетаний, состоящих из нескольких слов. При этом в словесных формулировках наименований понятий отображаются не все признаки понятий, а только их незначительное число. Часто это бывают не самые важные признаки, характеризующие содержание понятий, а лишь их некоторые отличительные признаки, позволяющие выделить эти понятия среди множества всех других.
Выше говорилось о том, что при машинном переводе текстов с одних естественных языков на другие рекомендуется в качестве основных единиц смысла рассматривать прежде всего не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между
9
понятиями и типовые ситуации. В этой связи возникает вопрос: а как часто в текстах встречаются фразеологические словосочетания различной длины?
С целью изучения этого вопроса автор диссертации провел масштабный эксперимент по выявлению повторяемости в текстах их фрагментов различной длины. Для этого были сформированы два корпуса политематических текстов: один — на русском языке, другой - на английском. Оба корпуса имели объемы более ста мегабайт и содержали тексты по науке, технике, политике, экономике, законодательству и другим областям человеческой деятельности. В состав корпусов текстов были включены также некоторые произведения художественной литературы. Корпус русских текстов включал в свой состав более 15 млн. 200 тыс. слов, корпус английских текстов - более 13 млн. 800 тыс. слов; в первом корпусе различных слов оказалось 237.849, во втором - 191.720.
Повторяемость фрагментов текстов изучалась путем их автоматического выделения из упомянутых выше корпусов текстов и составления соответствующих частотных словарей. При этом из текстов выделялись отдельные слова и последовательности контактно расположенных слов (словосочетания) длиной от двух до 16-ти слов. Фрагменты текстов, содержащие знаки препинания, и фрагменты, начинающиеся или заканчивающиеся союзами или предлогами, во внимание не принимались.
По массивам выделенных фрагментов текстов были составлены два частотных словаря (для русских и для английских текстов) объемом более 10 млн. слов и словосочетаний каждый. Частоты встречаемости фрагментов варьировали в этих словарях в пределах от единицы до нескольких сотен тысяч. Большинство фрагментов (около 80%) имели частоту равную единице, т. е. они не повторялись.
Из обоих словарей были выделены их начальные части, содержащие наиболее часто встречающиеся фрагменты текстов (с частотой встречаемости пять и более). При этом в начальной части словаря, составленного по русским текстам, оказалось 225.847 различных фрагментов, а в начальной части словаря, составленного по английским текстам - 381.403. Сформированные таким образом усеченные частотные словари фрагментов текстов были использованы для получения распределений длин этих фрагментов (см. таблицы 1 и 2).
Анализ таблиц 1 и 2 показывает, что в них чаще всего встречаются фрагменты текстов длиной от одного до пяти слов: в таблице 1 они составляют 95,4%, в таблице 2 - 97,4%. Фрагменты текстов длиной более десяти слов встречаются очень редко (в таблице 1 они составляют 0,4%, в таблице 2 - 0,7%).
Таблица 1.
Распределение длин фрагментов русских текстов в начальной части частотного словаря этих фрагментов
Длины фрагментов текстов (колич. слов) Относительные частоты встречаемости фрагментов текстов Длины фрагментов текстов (колич.слов) Относительные частоты встречаемости фрагментов текстов
1 0,337 9 0,004
2 0,403 ' 10 0,003
3 0,143 11 0,0017
4 0,051 12 0,0011
5 0,025 13 0,0005
6 0,015 14 0,0003
7 0,009 15 0,0002
8 0,006 16 0,0001
Таблица 2.
Распределение длин фрагментов английских текстов в начальной части частотного словаря этих фрагментов
Длины фраг- Относительные Длины фраг- Относительные
ментов текстов частоты встреча- ментов текстов частоты встреча-
(колич. слов) емости фрагмен- (колич. слов) емости фрагмен-
тов текстов тов текстов
1 0,156 9 0,0025
2 0,413 10 0,0019
3 0,278 11 0,0017
4 0,104 12 0,0013
5 0,023 ' 13 0,0011
6 0,008 14 0,0009
7 0,004 15 0,0009
8 0,003 16 0,0007
Таблицы 1 и 2 отражают распределения частот встречаемости различных длин фрагментов текстов в русских и английских словарях без учета частот встречаемости этих фрагментов в текстах. Поэтому мы провели дополнительную обработку частотных словарей, чтобы оценить роль и этого фактора. Картина получилась примерно такая же, которую мы наблюдали в таблицах 1 и 2: в русских текстах фрагменты длиной от одного до пяти слов встречаются в 99,5% случаев, в английских текстах -в 97,3%; а фрагменты длиной более десяти слов, в русских текстах встречаются в 0,05% случаев, в английских текстах - в 0,8% случаев. Это дает основание сделать очень важный вывод: фрагменты текстов длиной более десяти слов повторяются очень редко (их доля составляет менее одного процента).
Содержательный анализ фрагментов русских и английских текстов, представленных в частотных словарях, показал, что большинство этих фрагментов являются довольно устойчивыми наименованиями понятий. При этом доля таких наименований оказывается больше на тех участках частотных словарей, на которых больше средняя частота встречаемости фрагментов текстов. Это позволяет рассматривать описанные процедуры статистического анализа текстов как важное средство выявления их понятийного состава.
Вторая глава диссертации называется "Концепция фразеологического машинного перевода текстов с одних естественных языков на другие". Эта концепция сводится к следующим принципам:
1. Основными единицами языка и речи, которые прежде всего следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь на фразеологические единицы.
2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода могут использоваться и так называемые "речевые модели" фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, и таким образом могут порождаться осмысленные отрезки речи.
3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. И отличаются они друг от друга не столько словарным составом, сколько распределениями вероятностей появления в них различных слов и словосочетаний из общенационального словарного фонда. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей - тем более.
4. Для систем фразеологического перевода необходимы машинные словари большого объема. Такие словари должны создаваться прежде всего на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.
5. Наряду с основным политематическим словарем большого объема, в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных
12
эквивалентах словосочетаний и слов для различных предметных областей, если эти эквиваленты не совпадают с приоритетными переводными эквивалентами политематического словаря).
6. Основным средством разрешения полисемии (многозначности) слов в системах фразеологического перевода является их использование в составе фразеологических словосочетаний. Дополнительным - аппарат дополнительных тематических словарей, где для каждого многозначного слова или словосочетания указывается его приоритетный переводной эквивалент, специфичный для рассматриваемой предметной области.
7. Большую роль в системах фразеологического машинного перевода текстов должны играть процедуры морфологического и синтаксического анализа и синтеза текстов, построенные на основе принципа аналогии. Эти процедуры позволяют отказаться от хранения в словарях большого объема 1рамматической информации и порождать ее по мере необходимости автоматически, в процессе перевода. Они делают систему перевода открытой - способной обрабатывать тексты с "повой" лексикой.
8. Наряду с переводом текстов в автоматическом режиме, в системах фразеологического машинного перевода целесообразно предусмотреть и интерактивный режим их работы. В этом режиме пользователь должен иметь возможность вмешиваться в процесс перевода и настраивать дополнительные машинные словари на тематику переводимых текстов.
Системы фразеологического машинного перевода текстов с одних языков на другие должны включать в свой состав, как минимум, следующие компоненты:
1. Словарь переводных соответствий между лексическими единицами (преимущественно словосочетаниями) языков, вовлекаемых в процесс перевода;
2. Средства семантико-синтаксического анализа текстов на входном языке; ^
3. Средства преобразования результатов анализа текстов на входном языке к виду, удобному для их синтеза на выходном языке;
4. Средства семантико-синтаксического синтеза текстов на ^ выходном языке.
В диссертации описываются принципы построения базовых процедур фразеологического машинного перевода, основанных на широком использовании метода аналогии. К числу таких базовых процедур относятся процедуры морфологического анализа и синтеза слов. V
До последнего времени при автоматическом морфологическом анализе слов применялись алгоритмические процедуры, ориентированные на использование словарей их основ. В этих словарях для каждой основы
слова указывалась его принадлежность к определенной части речи, тип словоизменения и другая информация, необходимая для распознавания различных форм слов и для последующего синтаксического анализа текстов.
Процедуры морфологического анализа и синтеза слов, основанные на использовании словарей основ слов, дают точные результаты, но они непригодны для обработки "новых" слов (слов, не представленных в словаре). А такие слова в реальных условиях функционирования систем автоматической обработки текстовой информации встречаются довольно часто, и отсутствие средств их морфологического анализа и синтеза существенно снижает качество работы этих систем.
Возможность определения грамматических характеристик "новых" слов без словаря давно интересовала многих исследователей, но они пытались решить эту задачу, опираясь на суффиксы и окончания слов. А этих средств недостаточно, так как многие формы слов не имеют ни суффиксов, ни окончаний (например, формы слов "стол", "переход", "полос", "нес", "пригоден" и др.). Общий подход к решению задачи "новых" слов был предложен Г.Г. Белоноговым и реализован в ряде версий процедур морфологического анализа.
Возможность применения метода аналогии в морфологии проверялась при участии автора на материалах ряда европейских языков (русский, украинский, польский, болгарский, латышский, испанский, английский). В русском языке этот метод сначала применялся только для определения грамматических характеристик "новых" слов (слов, не включенных в машинные словарь). Позднее возникла мысль вообще отказаться при морфологическом анализе от использования машинного словаря основ слов и построить всю процедуру анализа на принципе аналогии. Поясним эту мысль.
Если по текстам достаточно большого объема (например, в несколько миллионов или, еще лучше, в несколько десятков миллионов слов) составить словарь словоформ, назначить каждой словоформе грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.) и преобразовать полученный таким образом словарь в обратный словарь словоформ, то можно обнаружить, что многие участки словаря (иногда довольно значительного размера) имеют одинаковые наборы признаков. В этом случае вывод о наличии сильной корреляционной связи между буквенным составом концов словоформ и характеризующими эти словоформы наборами грамматических признаков напрашивается сам собой.
В таблице 3 представлены фрагменты обратного словаря русских словоформ, в котором каждой словоформе поставлен в соответствие признак длины грамматического окончания, номер флективного класса (типа словоизменения) и числовой индекс, характеризующий такие
признаки как "глагольность", "местоименность", "сравнительная степень" и др. Признаки грамматического рода, числа и лица в явном виде не указаны (они могут быть легко определены по номеру флективного класса и грамматическому окончанию словоформы).
Таблица 3.
Фрагменты обратного грамматического словаря русских словоформ (словарь содержит около 180 тыс. лексических единиц)
масштаба 01/001/01 хлеба 01/001/01 погреба 01/001/01 небоскреба 01/001/01
техучеба 01/056/01 служба 01/056/01 разведслужба 01/056/01 телеслужба 01/056/01 гидрометеослужба 01 /056/01 дружба 01/056/01
дуба 01/001/01 куба 01/001/01 луба 01/001/01
палуба 01/056/01 труба 01/056/01 ахтуба 01/056/01 шуба 01/056/01
отсутствовавшие 02/105/10 свидетельствовавшие 02/105/10 преследовавшие 02/105/10 прореагировавшие 02/105/10
медальон 00/001/01 батальон 00/001/01 почтальон 00/021/01 павильон 00/001/01
анонсирует 02/116/10
массирует 02/116/10 прогрессирует 02/116/10 вегетирует 02/116/10
Обратный словарь может использоваться для автоматического морфологического анализа текстов, если составляющие их словоформы отождествлять со словоформами словаря и приписывать им грамматическую информацию, указанную в словаре. Словоформам текста, которые не находятся в словаре, можно приписывать грамматическую
15
у
информацию тех словоформ словаря, концы которых в максимальной степени совпадают с концами этих "новых" словоформ теста. Технически это удобно делать, если инвертировать словоформы словаря и словоформы текста перед их поиском в словаре (последние буквы поставить на первые места, предпоследние - на вторые и т.д.). Тогда можно применить один из методов ускоренного поиска (например, метод "деления пополам").
Объем словаря, представленного в таблице 3, можно существенно сократить, если на всех его участках с одинаковой грамматической информацией оставить только по две словоформы (начальную и конечную), а остальные исключить. Это никак не повлияет на точность морфологического анализа. Более того, можно в каждой паре словоформ с одинаковой грамматической информацией оставить только по одной, например, начальной словоформе, условившись, что если словоформа текста не совпадает ни с одной словоформой обратного словаря, то ей, по окончании дихотомического поиска, приписывается информация непосредственно предшествующей словоформы этого словаря.
Словарь, представленный в таблице 3, можно дополнительно сократить, если исключить из него начальные части словоформ, не оказывающие влияния на результаты морфологического анализа. При этом у каждой пары рядом стоящих словоформ оставляются совпадающие конечные буквосочетания и еще по одной букве, которые не совпадают.
После выполнения описанных выше операций исходный обратный грамматический словарь словоформ сокращается в восемь раз. Тем не менее, морфологический анализ всех первоначально включенных в него словоформ будет осуществляться правильно, а анализ всех остальных словоформ русского языка - с высокой вероятностью.
Для морфологического анализа текстов на основе метода аналогии в принципе достаточно располагать обратным словарем концов слов. Однако на практике оказалось полезным сформировать еще один машинный словарь - "словарь служебных и коротких слов". В этот словарь были включены предлоги, союзы, местоимения, частицы и короткие слова (слова длиной до пяти букв), сопровождаемые грамматической информацией. В дальнейшем в него стали включаться также и другие словоформы текстов, которые по методу аналогии анализировались неправильно. В результате "словарь служебных и коротких слов" увеличился до 11 тысяч словоформ.
В процессе морфологического анализа текстов сначала производится поиск в словаре "служебных и коротких слов", а затем - в словаре концов словоформ. Результаты анализа, полученные в процессе поиска по первому словарю, считаются более надежными, и словоформы, найденные в этом словаре, последующей обработке не подвергаются.
После некоторого периода "обучения" вероятность правильного анализа слов при обработке текстов любой тематики стала превышать 99%.
В таблице 4 приведены результаты морфологического анализа небольшого фрагмента текста. Здесь слева по вертикали расположены слова исходного текста. За ними следуют двузначные индексы длин грамматических окончаний слов, затем через косую черту - номера их флективных классов, далее - двузначные дополнительные грамматические признаки основ слов ("местоименность", "глагольность", "сравнительная степень" и др.) и, наконец, наборы цифровых индексов, обозначающих грамматический род, число, падеж и лицо. Например, словоформа "компьютерная" имеет грамматическое окончание, состоящее из двух букв, флективный класс 103, двузначный признак "собственно прилагательное" (в отличие, например, от местоименных и отглагольных прилагательных) и двузначный признак "женский род, именительный падеж единственного числа"; словоформа "область" - окончание, состоящее из одной буквы, флективный класс 055, признак "собственно существительное" и набор из двух двузначных признаков: "именительный падеж единственного числа" и "винительный падеж единственного числа".
Таблица 4.
Результаты морфологического анализа фрагмента русского текста
Компьютерная 2/103/01/31 лингвистика 01/060/01/11
это 01/112/02/2124 область 01/055/01/1114 знаний 01/073/01/22
связанная 02/103/10/31 с 00/162/025 решением 02/073/01/15 задач 00/057/01/22 автоматической 02/106/01/32333536 обработки 01/060/01/122124 информации 01/061/01/1213162124
представленной 02/103/01/32333536 на 00/164/046
естественном 02/103/01/1626 языке 01/006/01/16
Мы уже указывали, что в английском языке, как и в русском, существует сильная корреляционная связь между грамматическими характеристиками слов и буквенным составом их концов. Поэтому слова, имеющие аналогичные концы, с высокой вероятностью имеют одинаковые грамматические характеристики.
17
В таблице 5 представлены фрагменты обратного словаря английских словоформ, в котором каждой словоформе поставлен в соответствие признак длины грамматического окончания и один или несколько двузначных числовых индексов, характеризующих ее грамматический класс (или возможные грамматические классы). Так словоформа "America", стоящая на первом месте первого фрагмента таблицы 5, имеет нулевое окончание и относится к грамматическому классу "существительные"; словоформа "morphologie", стоящая на первом месте второго фрагмента, также имеет нулевое окончание и относится к грамматическому классу "собственно прилагательные"; словоформа "tightend", стоящая на первом месте третьего фрагмента, имеет нулевое окончание и относится к двум грамматическим классам - "отглагольные прилагательные" и "глаголы прошедшего времени".
Таблица 5.
Фрагменты обратного грамматического словаря английских словоформ (словарь содержит около 54 тыс. лексических единиц)
America 0/11 Africa 0/11 Corsica 0/11 Arctica 0/11 Antarctica 0/11 Casablanca 0/11 Canada 0/11
morphologic 0/21 epidemiologic 0/21 physiologic 0/21 immunologic 0/21 hydrologie 0/21
geohydrologic 0/21
tightened 0/2433 shortened 0/2433 fastened 0/2433 moistened 0/2433 flattened 0/2433 aligned 0/2433
thermobalance 0/11 microbalance 0/11 heatbalance 0/11 resemblance 0/11 surveillance 0/11 ambulance 0/11
readable 0/21 machine-readable 0/21 degradable 0/21 biodegradable 0/21 upgradable 0/21
standardize 0/32 focalize 0/32 realize 0/32 specialize 0/32
straightening 0/142444 heightening 0/142444 brightening 0/142444 whitening 0/142444 fastening 0/142444 listening 0/142444
artifical 0/21 strategical 0/21 pedagogical 0/21 logical 0/21 minemlogical 0/21 pharmacological 0/21 gynecological 0/21
Как и в случае русского языка, рассматриваемый обратный словарь может использоваться для автоматического морфологического анализа английских текстов, если составляющие их словоформы отождествлять со словоформами словаря и приписывать им грамматическую информацию, указанную в словаре. Словоформам текста, которые не находятся в словаре, можно приписывать грамматическую информацию тех словоформ словаря, концы которых в максимальной степени совпадают с концами этих "новых" словоформ текста. Объем словаря, представленного в таблице 5, можно без ухудшения качества морфологического анализа существенно сократить, если применить описанную выше методику.
В таблице 6 приведены результаты морфологического анализа небольшого фрагмента английского текста. Здесь слева по вертикали расположены слова исходного текста. За ними следуют однозначные индексы длин грамматических окончаний слов, затем (через косую черту) - двузначные числовые индексы, характеризующие грамматические классы слов. Так, слова "language" и "engineering" являются существительными с нулевым окончанием, слово "is" - вспомогательным глаголом, слово "the" - определенным артиклем, слово "core" -существительным, слово "of' - предлогом и т.д.
Таблица 6.
Результаты морфологического анализа фрагмента английского текста
Language 0/11 engineering 0/11 is 0/31 the 0/71 core 0/11 of0/51
information 0/11 technology 1/11 and 0/61 information 0/11 technology 1/11 will 0/31 be 0/31 the 0/71 key 0/1121 industry 1/11 of 0/51 the 0/71 next 0/21 decades 1/11 .
Наряду с процедурами морфологического анализа слов, в системах автоматической обработки текстовой информации используются процедуры их морфологического синтеза. В зависимости от конкретных задач, эти процедуры либо осуществляют генерацию различных форм слов на основе одной исходной формы, либо приводят исходные текстовые формы к некоторой канонической (нормальной) форме.
Для генерации различных форм слов (в частности, при их нормализации) необходимо знать грамматические характеристики исходного слова. Такие характеристики могут быть получены с помощью процедуры морфологического анализа, построенной с использованием метода аналогии.
При синтезе русских слов необходимо учитывать такое явление, как чередование гласных и согласных в суффиксах и корневых морфемах. Эта задача различными исследователями решалась по-разному. Автор диссертации использовал для этой цели метод аналогии. По существу он исходил из следующей гипотезы: слова, имеющие одинаковые типы словоизменения (флективные классы) и одинаковые буквосочетания в конце их основ, имеют и одинаковые типы чередования гласных и согласных.
На основе анализа большого лексического материала был составлен список подстановок объемом более 700 единиц. В левой части этих
подстановок стояли номера флективных классов слов, могущих иметь чередование гласных и согласных, и конечные буквосочетания их основ, в правой части - указания о том, какой тип чередования следует применять при синтезе той или иной формы слова.
Флективный синтез изменяемых слов производится с помощью обращенной морфологической таблицы и списка окончаний. Обращенная морфологическая таблица представляет собой двумерную таблицу, по одному входу которой перечислены номера флективных классов а по другому — коды грамматической информации, определяющие форму слова (род, число, падеж и др.). На пересечении строк и столбцов указаны коды окончаний.
При синтезе буквенного кода изменяемого слова необходимо задать его основу, номер флективного класса и код грамматической информации, определяющий синтезируемую форму слова. По номеру флективного класса и коду грамматической информации из обращенной морфологической таблицы выбирается буквенный код окончания и присоединяется к основе слова. В необходимых случаях к окончанию слова присоединяется также возвратная частица, а между основой и окончанием вставляется внутренний мягкий знак. В случае чередования гласных и согласных производятся изменения в буквенном составе основы слова.
При машинном переводе текстов с английского языка на русский приходится решать такую задачу как разрешение грамматической неоднозначности английских слов. Известно, что в английском языке грамматическая омонимия слов встречается очень часто. Например, слова "work", "spring", "map", "pump" и "end" в различных контекстных окружениях могут выступать в роли существительного и в роли глагола; слово "well" - в роли существительного, глагола и наречия; слово "good" -в роли существительного и прилагательного; слово "cool" - в роли существительного, прилагательного и глагола. Грамматическая омонимия слов может быть разрешена с помощью контекста, а контекст в обобщенном виде может быть представлен в виде последовательностей символов грамматических классов слов. Эти последовательности мы назвали обобщенными синтагмами.
С целью выявления различных контекстных окружений грамматически неоднозначных слов был проведен статистический анализ представительного корпуса английских текстов. При этом для каждого грамматически неоднозначного слова формировалась обобщенная синтагма длиной 11 элементов. В середине этой синтагмы находился символ грамматического класса неоднозначного слова, а в ее левой и правой части — по пять символов грамматических классов окружающих слов. В результате статистического анализа был составлен частотный словарь обобщенных синтагм объемом около 100 тыс. единиц. На его
основе был составлен словарь, в котором многозначная грамматическая информация к словам была заменена на однозначную. Этот словарь далее использовался в системе перевода для автоматического разрешения грамматической неоднозначности слов.
Автоматическое разрешение грамматической неоднозначности слов проводилось в следующем порядке. После морфологического анализа текста для каждого грамматически неоднозначного слова строилась обобщенная синтагма, характеризующая его непосредственное контекстное окружение. Затем эта синтагма искалась в словаре синтагм. Если она там находилась, то по ней выбиралась контекстуально обусловленная однозначная грамматическая информация к слову; если не находилась, то такая информация выбиралась по синтагме словаря, имеющей максимальное сходство с искомой синтагмой. Степень сходства определялась по суммарному весу совпавших символов грамматических классов сравниваемых синтагм. При этом вес символов считался тем больше, чем ближе они находились к символу класса грамматически многозначного слова.
Семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры — выделения в них смысловых единиц и установления связей между ними. При этом структура текстов может интерпретироваться по-разпому и описываться на различных формализованных языках. Конкретные цели и результаты анализа тоже могут быть разными
На начальном этапе развития систем машинного перевода (этапе семантико-синтаксического преимущественно пословного перевода) в качестве формализованных моделей синтаксической структуры текстов использовались модель дерева зависимостей и модель членов предложения. Но в системах фразеологического машинного перевода эти модели в чистом виде не могут применяться, так как здесь перевод ведется не пословно, а преимущественно по словосочетаниям как целостным смысловым единицам, и количество слов в наименованиях одних и тех же понятий, представленных на различных языках, может быть разным. Поэтому - главной целью семантико-синтаксического анализа должно быть выявление конг(ептуальной структуры исходного текста, а не структуры отношений между отдельными словами.
В качестве основной процедуры семантико-синтаксического анализа должен быть концептуальный анализ текстов. При этом синтаксические модели текстов типа дерева зависимостей или модель членов предложения должны играть вспомогательную роль.
В рамках автореферата диссертации нет возможности детально описывать даже основные процедуры семантико-синтаксического анализа и синтеза текстов, используемые в процессе фразеологического
машинного перевода. Поэтому мы остановимся на центральной процедуре этого процесса — на процедуре концептуального анализа.
Концептуальный анализ текстов — это, прежде всего, выявление их понятийного (концептуального) состава. При решении такой задачи используется эталонный словарь наименований понятий достаточно большого объема. В процессе анализа эталонный словарь сопоставляется с исходным текстом. Опознанные в тексте лексические единицы словаря (фразеологические сочетания и отдельные слова) считаются наименованиями понятий этого текста.
В таблице 7 представлена укрупненная схема процедуры концептуального анализа текстов. Первые четыре пункта этой схемы не требуют пояснений. В пункте 5 речь идет о том, что для отрезков исходного текста, выделенных в пункте 4, формируются их "поисковые образы" в виде последовательностей нормализованных слов и словосочетаний. Далее в пункте б эти последовательности заменяются на их первичные хеш-коды - на более короткие восьмибайтовые кодовые комбинации, которые в дальнейшем используются в процессе отождествления отрезков исходного текста с наименованиями понятий эталонного словаря.
Первичные хеш-коды формируются по способу "середины квадратов" - путем членения поисковых образов отрезков исходного текста на более короткие фрагменты одинаковой длины, суммирования этих фрагментов по модулю два, возведения полученных сумм в квадрат и выделения из полученных кодовых комбинаций их средней части. В эталонном двуязычном словаре входные наименования понятий, также как и отрезки исходного текста, представлены их хеш-кодами, так что отождествление отрезков исходного текста с наименований понятий эталонного словаря производится на уровне таких кодов.
Однако при концептуальном анализе не все хеш-коды первоначально выделенных отрезков исходного текста целесообразно искать в эталонном словаре. До обращения к словарю следует проводить "отбраковку" заведомо нерелевантных первичных хеш-кодов. Она осуществляется с помощью "логической шкалы" (см. п. 7 таблицы 7). В логической шкале символами "О" отмечаются те двоичные разряды, которые соответствуют первичным хеш-кодам, заведомо отсутствующим в эталонном словаре, символами "1" - двоичные разряды, соответствующие первичным хеш-кодам, которые с большой вероятностью могут быть там представлены. Обращение к логической шкале осуществляется по вторичным хеш-кодам слов и словосочетаний -по хеш-кодам первичных хеш-кодов.
Таблица 7.
Укрупненная схема алгоритма концептуального анализа текстов с контролем по тезаурусу
1. Членение входного текста на предложения;
2. Морфологический анализ текста;
3. Пословная нормализация текста; <_
4. Членение предложений текста на отдельные слова и отрезки текста длиной от 2-х до 16-ти слов;
5. Формирование поисковых образов слов и словосо-четаний;
6. Формирование первичных хеш-кодов слов и слово-сочетаний;
7. Формирование вторичных хеш-кодов слов и словосочетаний по их первичным хеш-кодам и исключение нерелевантных первичных хеш-кодов с помощью логической шкалы;
8. Поиск наименований понятий в эталонном словаре по массиву первичных хеш-кодов, сформированному в п. 6;
9. Исключение из результатов поиска слов и словосочетаний, которые на одних и тех же отрезках текста входят в состав других, более длинных словосочетаний.
Семантико-синтаксический синтез текстов - задача, обратная задаче его семантико-синтаксического анализа. Если при анализе текста осуществляется переход от его исходного представления к формализованной концептуальной модели, то при его синтезе, наоборот, -переход от некоторой формализованной концептуальной модели текста к его буквенному коду. Формализованная модель текста может быть получена в результате семантико-синтаксического анализа входного текста.
Как уже указывалось, на этапе машинного перевода, обозначенном нами термином трансфер, осуществляется замена наименований понятий исходного текста на наименования этих понятий на выходном языке и преобразование информации о синтаксической структуре исходного текста в информацию, необходимую для синтеза выходного текста. Важнейшей процедурой этапа трансфер является процедура замены наименований понятий исходного текста на синонимичные им наименования понятий на выходном языке. От качества выполнения этой процедуры прежде всего зависит качество перевода, так как если смысл понятий переводимого текста передается неправильно, то уже никакими синтаксическими средствами этого исправить нельзя.
Процедура замены наименований понятий исходного текста на их наименования па выходном языке осуществляется с помощью машинного словаря. В результате ее выполнения выходной текст сначала представляется в виде последовательности слов и словосочетаний, являющихся переводными эквивалентами слов и словосочетаний
24
исходного текста. Затем эта последовательность преобразуется в связный текст. В русских текстах сказуемое грамматически согласуется с подлежащим, и внутри групп сказуемого и подлежащего, не содержащих словарных фразеологических единиц, слова-"слуги" согласуются со словами-"хозяевами".
В случае наличия в этих группах словарных фразеологических единиц запрещается вносить какие-либо изменения в порядок следования входящих в их состав слов, а грамматическая форма слов может изменяться только у опорных слов именных и глагольных словосочетаний и у прилагательных, определяющих опорные слова именных словосочетаний.
Таким образом, синтаксическая структура выходного текста в значительной мере определяется синтаксической структурой фразеологических словосочетаний, выбранных из словаря. А та часть текста, которая не покрывается словарными фразеологическими словосочетаниями, представляется переводными эквивалентами отдельных слов, которые согласуются друг с другом по правилам грамматики. При этом иногда делаются локальные перестановки слов. Например, при переводе на английский язык русского именного словосочетания "поиск информации" переводной эквивалент слова "информация" (information) располагается впереди переводного эквивалента слова "поиск" (retrieval) и в результате формируется словосочетание information retrieval. В выходных английских текстах могут выполняться также и более масштабные перестановки, например, перестановки местами группы подлежащего и группы сказуемого, если во входном русском тексте группа сказуемого предшествовала группе подлежащего.
В главе 3 описывается архитектура систем фразеологического машинного перевода. Под архитектурой систем машинного перевода мы будем понимать состав и структуру декларативных и процедурных средств этих систем и общий порядок их функционирования в процессе перевода текстов с одних естественных языков на другие. К декларативным средствам машинного перевода относятся единицы языка и речи и различного рода грамматические таблицы, к процедурным средствам — процедуры манипулирования декларативными средствами.
В настоящее время наиболее продвинутой системой фразеологического машинного перевода является система RETRANS. Поэтому мы рассмотрим архитектуру систем фразеологического машинного перевода на примере этой системы.
Система RETRANS включает в свой состав следующие основные декларативные средства:
Основной русско-английский политематический фразеологический машинный словарь объемом более 2-х млн. 600 тыс. словарных статей;
25
2. Основной англо-русский политематический фразеологический машинный словарь объемом более 2-х млн. 600 тыс. словарных статей;
3. Двенадцать дополнительных тематических русско-английских словарей общим объемом более 600 тыс. словарных статей (они применяются для настройки системы ИЕТКЛЫБ на перевод текстов различной тематики);
4. Двенадцать дополнительных тематических англо-русских словарей общим объемом более 600 тыс. словарных статей;
5. Русско-английские словари пользователей (для дополнительной настройки системы ШЗТЮШЗ на перевод текстов по узким тематическим областям);
6. Англо-русские словари пользователей;
7. Массивы русско-английских билингв (массивы русских предложений по узким тематикам и их переводов на английский язык);
8. Массивы англо-русских билингв (массивы английских предложений по узким тематикам и их переводов на русский язык);
9. Словарь концов русских словоформ для морфологического анализа русских слов по методу аналогии;
10. Словарь русских словоформ для корректировки результатов морфологического анализа русских слов по методу аналогии (словарь содержит грамматическую информацию к словоформам, которые неправильно анализируются по методу аналогии);
11. Словарь концов английских словоформ для морфологического анализа английских слов по методу аналогии;
12. Словарь английских словоформ для корректировки результатов морфологического анализа английских слов по методу аналогии;
13. Грамматические таблицы, необходимые для морфологического анализа и синтеза русских и английских словоформ;
14. Словарь обобщенных синтагм, необходимый для разрешения грамматической многозначности английских слов;
15. Словарь "аномальных" случаев моделей управления знаменательных русских слов;
16. Словарь русских слов, необходимый для разрешения многозначности моделей управления предлогов.
Процедурные средства системы КЕТКАЫЗ представляют собой сложный комплекс, включающий в свой состав более двух тысяч программных модулей. Наиболее важными процедурами этой системы являются следующие:
1. Членение входных английских текстов на предложения.
2. Членение входных русских текстов на предложения.
3. Морфологический анализ английских слов;
4. Морфологический синтез английских слов;
5.Морфологический анализ русских слов;
6. Морфологический синтез русских слов;
7. Лемматизация (нормализация) английских слов;
8. Лемматизация русских слов;
9. Концептуальный анализ английских текстов и замена английских наименований понятий па их русские эквиваленты;
10. Концептуальный анализ русских текстов и замена русских наименований понятий на их английские эквиваленты;
11.Синтаксический анализ входных английских текстов;
12. Синтаксический синтез выходных русских текстов;
13.Синтаксический анализ входных русских текстов;
14.Синтаксический синтез выходных английских текстов;
15. Программы управления работой системы НЕТЯАЫЗ, в частности, комплекс программ, обеспечивающий общение пользователя с этой системой (интерфейс пользователя).
Порядок работы системы ИЕТГ1АЫ8 при переводе текстов с русского языка на английский и с английского на русский примерно один и тот же. Поэтому мы рассмотрим его на примере русско-английского перевода.
При переводе текста с русского языка на английский сначала производится его членение на предложения и выполняется морфологический анализ входящих в него слов. По результатам морфологического анализа проводится синтаксический анализ текста, после чего он расчленяется на отдельные слова и фразеологические словосочетания длиной от двух до 16-ти слов. Отдельные слова и слова, входящие в словосочетания, сопровождаются их порядковыми номерами по тексту и нормализуются. Нормализованные слова и пословно нормализованные словосочетания далее интерпретируются как поисковые образы слов и словосочетаний и хешируются.
Далее выделенные из текста слова и словосочетания ищутся в русско-английских машинных словарях (в основном политематическом и в одном из дополнительных тематических словарей). Входами в словари служат хеш-коды поисковых образов русских слов и словосочетаний, упорядоченные по возрастанию их численных значений. Хеш-коды поисковых образов русских слов и словосочетаний, извлеченных из текста, также упорядочиваются по возрастанию численных значений. Поиск в словарях ведется методом "скользящего начала" в сочетании с методом "деления пополам". В результате поиска из словарей выбираются
английские переводные эквиваленты русских слов и словосочетаний, сопровождаемые порядковыми номерами и сочетаниями порядковых номеров русских слов в исходном тексте. Затем переводные эквиваленты упорядочиваются по возрастанию численных значений сопровождающих их номеров слов и их сочетаний.
Следующим этапом перевода является выбор для каждого фрагмента исходного текста единственного переводного эквивалента или единственной серии переводных эквивалентов (если в словаре указывается серия переводных эквивалентов). При этом предпочтение оказывается тем эквивалентам или их сериям, которые покрывают более длинные фрагменты исходного текста или, при равенстве их длин, тем эквивалентам, которые были выбраны из дополнительного тематического словаря. Альтернативные варианты перевода исключаются. Результаты этого этапа перевода представляются в виде структуры, приведенной в таблице 8. В середине этой таблицы по вертикали расположены порядковые номера слов исходного текста. Слева и справа от них -элементы исходного текста и их переводы: слева - слова русского текста, справа - английские эквиваленты русских слов и словосочетаний.
Таблица 8.
Фрагмент промежуточных результатов перевода текста с русского языка на английский
Перевод 00001 00002 text translation текстов 00002
с 00003 00004 00005 00006 00007 00008 from some natural languages into others
одних 00004 естественных 00005 языков 00006 на 00007 другие 00008
- 00009 - / is сложный 00010 complicated / complex / compound / difficult
творческий 00011 00012 creative process процесс 00012 ,00013
требующий 00014 requiring / demanding / claiming / making the demand от 00015 from переводчика 00016 interpréter / translater
не 00017 00018 not only / not just только 00018 соответствующей 00019 corresponding / appropriate /
respective / adequate лингвистической 00020 linguistic
подготовки00021 training/ préparation/
getting ready / preparing
, 00022
но 00023 00024 but as well / but also и 00024
хороших 00025 good / nice / well знаний 00026 knowledge / knowing тех 00027 those предметных 00028 00029 subject field / object areas / application domain
областей 00029 , 00030
к 00031 00032 to which которым 00032
переводимые 00033 00034 translated texts тексты 00034 относятся 00035 relate / belong / concern .00036
Далее перевод может выполняться в двух режимах: а) в режиме автоматического перевода; б) в интерактивном режиме с возможностью интеллектуального редактирования промежуточных результатов перевода. В режиме автоматического перевода для каждого слова и словосочетания исходного русского текста выбирается только один (первый) английский переводной эквивалент из числа указанных в таблице 8. Затем следует синтез выходного текста, который выполняется с использованием результатов поиска по словарю, результатов синтаксического анализа исходного русского текста и результатов морфологического анализа английских слов, входящих в состав переводных эквивалентов.
Результаты синтеза английского текста имеют структуру, аналогичную структуре, приведенной в таблице 8. Отличие состоит лишь в том, что здесь каждое слово и словосочетание русского текста сопровождается только одним английским эквивалентом. При необходимости, изменяются формы английских слов и порядок их следования а также делаются пометы об изменении порядка следования слов. Эта структура далее используется для построения выходного английского текста.
Работа системы RETRANS в интерактивном режиме поначалу (пока не сформирована структура, приведенная в таблице 8) ничем не отличается от ее работы в автоматическом режиме. Затем, когда эта структура сформирована, пользователь может корректировать промежуточные результаты перевода. При этом есть возможность обнаруживать слова и словосочетания, для которых в словаре не указаны их переводные эквиваленты или эти эквиваленты не соответствуют контексту или указано несколько эквивалентов, но на первом месте стоит эквивалент, не соответствующий контексту. В случае отсутствия у некоторых слов переводных эквивалентов они могут быть указаны
человеком; если эквиваленты не соответствуют контексту, они могут быть заменены па другие; если их несколько, то есть возможность выбрать только те из них, которые соответствуют контексту. Наконец, можно из слов и словосочетаний входного текста формировать новые словосочетания длиной от двух до 16-ти слов и указывать для них переводные эквиваленты.
В состав системы КЕТИАЫБ включен пакет программ, который позволяет обнаруживать редакционные правки, сделанные переводчиком, формировать на их основе словарные статьи и вводить их в дополнительные словари соответствующей тематики. Таким образом систему машинного перевода можно настраивать на различные предметные области.
Машинные словари и средства их автоматизированного пополнения и настройки, созданные на начальных этапах разработки системы КЕТКАИБ (1993-1998 г.г.), сыграли большую роль в ее дальнейшем развитии. Но опыт практической эксплуатации этой системы выявил необходимость введения некоторых изменений в структуру словарей. Так, наряду с основными политематическими и дополнительными тематическими словарями системы были введены еще и дополнительные словари пользователей. При этом имелось в виду, что при переводе текстов с одного языка на другой будут одновременно использоваться три словаря: основной политематический словарь, один из дополнительных тематических словарей и один из словарей пользователей.
Словарь пользователя (СП) служит для тонкой настройки системы машинного перевода, выполняемой самим пользователем при переводе текстов по конкретной тематике. Кроме того, СП дает возможность использовать при переводе ранее созданные словарные массивы. В отличие от основного политематического словаря и дополнительных тематических словарей, содержимое которых может изменяться только разработчиками системы машинного перевода, словарь пользователя может создаваться и изменяться пользователем по своему усмотрению.
Пользователь системы НЕТКАЫБ может создавать практически неограниченное количество своих словарей по различным тематикам, но в процессе перевода конкретного текста используется только один словарь. При необходимости, можно объединить несколько словарей в один словарь.
В интерактивном режиме работы пользователь имеет возможность просматривать все варианты перевода слов и словосочетаний содержащиеся в словарях, изменять их приоритет, добавлять новые переводные эквиваленты, а также выполнять другие операции над промежуточными результатами перевода. В промежуточных результатах перевода (см. таблицу 8) эквивалент, выбранный из СП, будет стоять первым в списке возможных вариантов перевода наименования понятия.
Затем будут располагаться варианты перевода, выбранные из дополнительного тематического словаря, в том порядке, в котором они записаны в словаре. За ними - варианты перевода из основного политематического словаря.
Основным фактором, влияющим на качество машинного перевода, является правильный выбор переводных эквивалентов слов и словосочетаний. Это обеспечивается механизмом концептуального анализа текстов и механизмом выбора переводных эквивалентов отрезков текста из числа найденных в словарях. Но в результате поиска в словарях может оказаться, что одни и те же отрезки исходного текста покрываются словосочетаниями различной длины. Поэтому на заключительном этапе концептуального анализа для каждого отрезка текста сохраняются только словосочетания максимальной длины, а входящие в их состав более короткие словосочетания и отдельные слова исключаются.
В случае пересечения словосочетаний различной длины в результатах поиска оставляется только словосочетание наибольшей длины, а более короткое исключается. Если пересекаются словосочетания одинаковой длины, то в результатах поиска оставляется только первое слева словосочетание.
Обобщенная схема процесса перевода текстов с английского языка на русский в автоматическом режиме представлена в таблице 9.
Таблица 9.
Обобщенная схема процесса перевода текстов с английского языка на русский
№№ п/п Наименование этапов перевода
1. Семантико-синтаксический анализ исходного английского текста: 1.1.Членение текста на предложения; 1.2. Морфологический анализ текста; 1.3. Семантико-синтаксический (концептуальный и синтаксический) анализ текста.
2. Трансфер: 2.1. Замена наименований понятий (слов и словосочетаний) исходного английского текста на наименования понятий русского текста; 2.2. Преобразование информации о синтаксической структуре английского текста в информацию, необходимую для синтеза русского текста (в частности, присвоение русским словам и словосочетаниям грамматических признаков членов предложения и установление между ними отношений непосредственной доминации).
Семантико-синтаксический синтез выходного русского текста:
3.1. Морфологический анализ_русских слов с целью определения их грамматических признаков - признаков их грамматических классов и признаков формы (род, число, падеж, лицо и др.);
3.2. Формирование синтаксической структуры выходного русского текста на основе результатов выполнения п. 2.2;
3.3. Морфологический синтез форм русских слов в соответствии с их словоизменительными моделями и грамматической ролью в предложении._
В этой таблице выделены три крупных этапа перевода: этап семантико-синтаксического анализа исходного английского текста, этап трансфера и этап семантико-синтаксического синтеза выходного русского текста. На первом этапе производится членение английского текста на предложения и его концептуальный и синтаксический анализ.
На втором этапе (этапе трансфера) выполняется замена наименований понятий (слов и словосочетаний) английского текста на наименования понятий русского текста и преобразование информации о синтаксической структуре английского текста в информацию, необходимую для синтеза выходного русского текста (в частности, производится присвоение русским словам грамматических признаков членов предложений). На третьем этапе (этапе семантико-синтаксического синтеза) осуществляется грамматическое оформление выходного русского текста.
Обобщенная схема процесса перевода текстов с русского языка на английский имеет структуру, аналогичную структуре таблицы 9.
Глава 4 диссертации называется "Автоматизация составления и ведения словарей для систем фразеологического машинного перевода"
Для автоматического составления словарей наименований понятий по неформализованным текстам необходимо располагать процедурой их концептуального анализа. Такая процедура была разработана автором в конце 80-х годов прошлого столетия и в течение многих лет использовалась в системе фразеологического машинного перевода 11ЕТ11АК8. На основе этой процедуры были проведены масштабные статистические исследования текстов с целью изучения законов распределения наименований понятий, выраженных словами и словосочетаниями. В качестве эталонных словарей для концептуального анализа текстов были использованы входы в русско-английский и англорусский словари системы фразеологического машинного перевода ИЕТИА^. Словари имели объемы по 1 млн. 700 тыс. словарных статей каждый.
Для составления частотных словарей сначала был взят массив русскоязычных заголовков документов по Автоматике и
Радиоэлектронике (АИРЭ) объемом 37 мегабайт, извлеченный из реферативных баз данных ВИНИТИ. В массиве было 296.136 заголовков документов. Словарь получился объемом более 132 тыс. различных слов и словосочетаний. Фрагмент этого словаря приведен в таблице 10. В этой таблице на первой слева позиции каждой строки указана частота встречаемости лексической единицы (слова или словосочетания) в массиве заголовков документов, на второй позиции (между частотой и звездочкой) - поисковый образ этой лексической единицы (основа слова или сочетание основ слов), на третьей позиции (после звездочки) - одна из текстовых форм лексической единицы.
Составленный словарь был упорядочен по убыванию частот встречаемости лексических единиц. В его начальной части преобладали отдельные слова. Далее, по мере убывания частоты встречаемости лексических единиц, удельный вес слов в словаре уменьшался, а удельный вес словосочетаний возрастал. Так, в начальной части словаря доля словосочетаний составляла 8,9%, а к концу словаря она возросла до 92%.
Таблица 10.
Фрагменты частотного словаря слов и словосочетаний но Автоматике и Радиоэлектронике, составленного по русскоязычным заголовкам документов
00068 сверхпроводящ тонк пленк * сверхпроводящих тонких пленках
00068 распределенн памят * распределенной памятью
00068 оптимальн стратеги * оптимальной стратегии
00068 оксидн сверхпроводник * оксидных сверхпроводниках
00068 нов материал * новых материалов
00068 моп-конденсатор * МОП-конденсаторах
00068 микропроцессоры * микропроцессорные
00068 магнитн головк * магнитной головки
00068 логическ программ * логических программ
00068 коэффициент преломлени * коэффициента преломления
00068 клеточн автомат * клеточного автомата
00068 калориметр * калориметр
00068 газофазн эпитакси * газофазной эпитаксии
00040 эмиттанс * эмиттанс
00040 электронн микроскопи высок разрешени * электронной микроскопии высокого разрешения
00040 широкополосн сигнал * широкополосного сигнала 00040 численн исследовани * численное исследование 00040 человеко-машинн интерфейс * человеко-машинным интерфейсом 00040 цифров метод * цифровые методы
Количественные данные о распределении частот встречаемости наименований понятий в текстах удобно представлять в виде характеристической таблицы. Для русскоязычных заголовков документов
по Автоматике и Радиоэлектронике такая таблица в полном объеме имеет 703 строки. В таблице 11 приведен ее сокращенный вариант.
В первой графе сокращенного варианта таблицы указаны порядковые номера строк по ее полному варианту. Во второй графе — частоты встречаемости лексических единиц в тексте. В третьей — кратности этих частот (количество повторений одинаковых значений частот у разных лексических единиц). В четвертой графе - накопленные частоты (суммы всех значений частот лексических единиц, предшествующих рассматриваемой, и ее собственной частоты). В пятой графе - накопленные кратности частот лексических единиц словаря (по существу это ранги лексических единиц — их порядковые номера, отсчитываемые от начала частотного словаря). В шестой графе — относительные накопленные частоты лексических единиц.
Таблица 11.
Сокращенная характеристическая таблица распределения частот встречаемости слов и словосочетаний в русскоязычных заголовках по АИРЕ
Порядк. Частота Кратность Накопленная Накопленная Относительная
Номера частоты частота кратность накопл. част.
1 62739 1 62739 1 0.039333
2 53780 1 116519 2 0.073049
3 36899 1 153418 3 0.096182
5 23622 1 212232 5 0.133055
10 5977 1 251140 10 0.157447
20 3666 1 294778 20 0.184805
30 2420 1 322203 30 0.201999
50 1482 1 357904 50 0.224381
98 990 1 417638 100 0.261830
179 667 2 496768 200 0.311439
249 508 2 555498 301 0.348258
361 350 1 638159 500 0.400081
510 194 6 766831 999 0.480749
602 102 20 906550 2007 0.568343
635 69 44 990830 3018 0.621181
663 41 113 1094233 4998 0.686007
684 20 431 1228482 9836 0.770172
695 9 1700 1357484 19966 0.851047
696 8 2082 1374140 22048 0.861489
698 6 3414 1413083 28099 0.885904
701 3 10292 1493039 49528 0.936031
702 2 19173 1531385 68701 0.960071
703 1 63690 1595075 132391 1.000000
Множество пар чисел из пятой и второй граф таблицы 11 представляет распределение частот встречаемости лексических единиц в тексте в виде статистического ряда, а множество пар чисел пятой и шестой граф — кумулятивную кривую этого распределения. График статистического ряда представлен на рис.1, а кумулятивная кривая - на рис. 2.
4000
3000
f 2000 кхх
1000
о
О 300 1000 1300 2000 2500
х
Рис. 1. Зависимость частоты f лексической единицы от ее ранга х в частотном словаре по Автоматике и Радиоэлектронике
Об
0.4 0.2
0 2 • 10 4 4-10 * 6 10 * 8 10 * 1 10 5 1.2 10 3 1.4 -10 3
х
Рис. 2. Зависимость относительной накопленной частоты F от ранга х лексической единицы в частотном словаре по Автоматике и Радиоэлектронике
Если представить график функции, изображенной на рис. 1, в двойном логарифмическом масштабе, то он приобретет форму, близкую к прямой линии (см. рис. 3). Форму близкую к прямой линии приобретает и график, изображенный на рис. 2, если по оси абцисс откладывать значения In х, а по оси ординат — значения двойного логарифма величины (1 — F(x)). Этот график изображен на рис. 4.
[ : i
|
Ь(х)
Рис. 3. Зависимость между рангом х лексической единицы и ее частотой Г(х), представленными в двойном логарифмическом масштабе
вд
Рис. 4. Зависимость между логарифмом порядкового номера (ранга) лексической единицы 1п х и двойным логарифмом Рв дополнения относительной накопленной частоты Р(х) до единицы (Рв=1п(-1п(1-Р(х)))).
Если предположить, что графики, изображенные на рис. 3 и 4, могут быть аппроксимированы линейной функцией с параметрами к и ш, то путем обратного преобразования координат (потенцирования) можно прийти к выводу, что статистический ряд может быть аппроксимирован выражением типа (1), а кумулятивная кивая — выражением типа (2).
Дх) в к-х™ (1)
Р(х) »1-е (2)
Параметры к и т в выражениях (1) и (2) были определены по данным таблицы 11 способом наименьших квадратов и оказались равными: для выражения (1) к = 79.680, ш = - 0,922, а для выражения (4.2) - к = 0,063, т = 0,346. При этом средняя ошибка аппроксимации для выражения (1) оказалась равной 7%, а для выражения (2) - 5%.
После обработки массива русскоязычных заголовков документов по Автоматике и Радиоэлектронике для составления частотных словарей были взяты политематический массив русскоязычных заголовков документов объемом более одного миллиона заголовков (более 130 мегабайт) и политематический массив англоязычных заголовков документов примерно такого же объема. В этих массивах содержались заголовки документов по следующим тематическим областям: Автоматика и Радиоэлектроника, Астрономия, Биология, Геология, Информатика, Машиностроение, Медицина, Металлургия, Механика, Транспорт, Физика, Химия, Экономика, Электротехника, Энергетика. Составленные частотные словари имели объемы около 300 тыс. различных слов и словосочетаний каждый. Распределения частот встречаемости этих лексических единиц имели такой же характер, что и на рисунках 1-4.
Частотные словари, составляемые с использованием метода концептуального анализа с контролем по тезаурусу, отражают распределения частот появления в текстах только тех наименований понятий, которые включены в эталонный словарь. Остальные наименования понятий, содержащиеся в текстах, игнорируются. Однако при решении многих задач автоматической обработки текстов (прежде всего задачи машинного перевода) возникает необходимость максимального охвата их понятийного состава. В таких случаях важно располагать средствами концептуального анализа текстов без контроля по эталонному словарю, даже если эти средства и не обеспечивают стопроцентную точность анализа.
Ниже описывается приближенный метод выделения наименований понятий из текстов, позволяющий обойтись без эталонного словаря. При этом мы исходили из следующих предположений:
1. Всякий связный текст бывает, как правило, осмысленным. Осмысленными являются и любые его части - предложения и фрагменты предложений, состоящие из одного или из нескольких контактно расположенных слов.
2. Повторяющимся фрагментам текстов соответствуют и повторяющиеся мыслительные образы, а часто повторяющимся фрагментам текстов - устойчивые понятия. Следовательно, часто повторяющиеся фрагменты текстов, состоящие из нескольких слов, можно рассматривать в качестве устойчивых фразеологических единиц, обозначающих понятия.
3. Если в корпусе текстов достаточно большого объема выделить все слова и все последовательности контактно расположенных слов длиной от двух до N слов и составить частотный словарь этих фрагментов текстов, то наиболее часто встречающиеся фрагменты будут, как правило, наименованиями понятий. При составлении частотного словаря целесообразно отождествлять выделяемые фрагменты не по их текстовым формам, а по поисковым образам, состоящим из нормализованных форм слов или из основ слов. Кроме того, можно на выделяемые фрагменты текстов наложить простейшие синтаксические ограничения (например, исключить из рассмотрения фрагменты, у которых в начале и в конце стоят союзы или предлоги, а также фрагменты, содержащие местоимения и знаки препинания).
Укрупненная схема алгоритма концептуального анализа текстов без контроля по тезаурусу представлена в таблице 12. Этот алгоритм во многом похож на алгоритм концептуального анализа текстов с контролем по тезаурусу (см. таблицу 7). Но здесь для проверки принадлежности цепочек слов, выделенных из текста, к категории наименований понятий, используется не словарь наименований понятий, а процедура синтаксического контроля.
Таблица 12.
Укрупненная схема алгоритма концептуального анализа текстов без контроля по тезаурусу
1. Членение входного текста на предложения;
2. Членение предложений на отдельные слова и фрагменты текста длиной от 2-х до 9-ти слов;
3. Морфологический анализ фрагментов текста;
4. Синтаксический контроль фрагментов текста, выделенных в п.2, и исключение фрагментов, не удовлетворяющих условиям синтаксического контроля.
5. Пословная нормализация фрагментов текста п.4;
6. Формирование поисковых образов слов и словосочетаний п.5;
7. Составление частотного словаря наименований понятий.
С помощью метода концептуального анализа текстов без контроля по тезаурусу были составлены частотные словари по тем же массивам русских и английских текстов, что и при анализе текстов с контролем по тезаурусу (общий объем обработанных текстов превосходил 300 мегабайт). Для статистических распределений лексических единиц, полученных с помощью этого метода, были вычислены параметры выражений (1) и (2) и произведена оценка точности аппроксимации. Результаты расчетов приведены в таблицах 13 и 14.
Таблица 13.
Параметры функции 1"(х) (см. формулу 1) для частотных словарей лексических единиц, составленных с помощью метода концептуального анализа текстов без контроля по тезаурусу
№№ п/п Типы частотных словарей Параметры Средняя относи тельная ошибка
к m аппроксимации
1. Распределение частот появления словосочетаний, в русскоязычных заголовках 1580 0,574 6,4%
2. документов Распределение частот появления словосочетаний, в англоязычных заголовках 3436 0,604 5,9%
3. документов Распределение частот появления словосо- 1890 0,593 5,1%
четаний, в русскоязычных текстах рефератов
4. Распределение частот появления словосо- 9154 0,689 3,9%
четаний, в англоязычных текстах рефератов
Таблица 14.
Параметры функции F(x) (кумулятивной крипом, см. формулу (2)) для частотных словарей лексических единиц, составленных с помощью метода концептуального анализа текстов без контроля по тезаурусу
№№ Средняя относи
п/п Типы частотных словарей Параметры тельная ошибка
к ш аппроксимации
1. Распределение частот появления словосо- 0,0005 0,494 5,8%
четаний в русскоязычных заголовках
документов
2. Распределение частот появления словосо- 0,0011 0,452 5,5%
четаний в англоязычных заголовках
документов
3. Распределение частот появления словосо- 0,0016 0,429 2,1%
четаний в русскоязычных текстах
рефератов
4. Распределение частот появления словосо- 0,0037 0,392 4,7%
четаний в англоязычных текстах
рефератов
Содержательный анализ частотной части словаря, составленного по массиву русскоязычных политематических заголовков документов показал, что 93%. словосочетаний, имеющих частоту встречаемости два и более, являются наименованиями понятий. Только 7% из них оказались некорректными.
Мы неоднократно подчеркивали, что качество перевода зависит прежде всего от объема и качества двуязычных фразеологических машинных словарей, а его улучшение - от эффективности используемых методов их составления. В диссертации этой проблеме уделяется большое внимание. В ней рассматриваются различные методы составления и ведения словарей и среди них статистические методы установления переводных соответствий между словами и словосочетаниями.
Установление переводных соответствий между словосочетаниями является более трудной задачей, чем установление переводных соответствий между словами, так как границы слов определяются проще, чем границы словосочетаний. Границы словосочетаний для одного языка (например, русского) могут определяться на основе синтаксического анализа текстов, но в этом случае возникают затруднения с определением их границ для другого например, английского) языка, так как словарные единицы, выражающие один и тот же смысл, на русском и па английском языках могут состоять из разного количества слов (см. пары словосочетаний "колесная пара" - "wheel and axle set", "стандартная платформа" - "standard flat wagon", "счетчик времени стоянки" - "parking meter").
При установлении переводных соответствий между словосочетаниями можно опираться на следующую гипотезу: "Если два предложения являются переводами друг друга, то для каждого словосочетания одного из предложений с высокой вероятностью найдется эквивалентное ему по смыслу словосочетание или слово из другого предложения". Следовательно, если для некоторого русского словосочетания подобрать множество включающих его русских предложений и множество английских переводов этих предложений, то в английских предложениях будут многократно встречаться переводы этого словосочетания и входящих в его состав слов. При этом переводы слов, входящих в состав русского словосочетания, будут располагаться в английских предложениях контактно. Это дает возможность определять границы английских словосочетаний, являющихся переводами русского словосочетания, так как эти словосочетания будут состоять из наиболее частых слов.
Установление переводных соответствий между русскими и английскими словосочетаниями может проводиться в следующем порядке:
1) Расчленение параллельных текстов (билингв) на пары предложений, являющихся переводами друг друга и нумерация этих пар;
2) Выделение из русских предложений словосочетаний и присвоение им номеров пар предложений;
3) Сортировка словосочетаний п.2 и исключение из полученного массива словосочетаний с малой частотой встречаемости;
40
4) Выборка для заданного русского словосочетания всех пар предложений, включающих это словосочетание (по номерам пар предложений п. 2);
5) Составление по выбранному в п. 4 массиву пар предложений частотного словаря английских слов, выделение из него частых слов;
6) Маркировка частых слов в английских предложениях п. 4 и выборка из них непрерывных последовательностей маркированных слов. Редактирование последовательностей (исключение предлогов и союзов, стоящих в начале и в конце этих последовательностей);
7) Составление частотного словаря последовательностей (словосочетаний) п. 6;
8) Выборка из частотного словаря словосочетаний п. 7 самого частого словосочетания (или двух самых частых словосочетаний) в качестве английского переводного эквивалента (переводных эквивалентов) заданного русского словосочетания;
9) Повторение п.п. 4-8 для всех словосочетаний словаря п.З.
С помощью описанной процедуры был обработан массив пар заголовков научно-технических документов на английском и на русском языках объемом более 1 млн. пар. В результате был получен русско-английский словарь словосочетаний объемом около 10 тыс. словарных статей.
Статистические методы позволяют устанавливать переводные соответствия между разноязычными словами и словосочетаниями в автоматическом режиме, но точность результатов здесь сильно зависит от частоты повторения выбираемых соответствий - чем выше эта частота, тем меньше вероятность ошибки. Однако повышение пороговой частоты повторения выбираемых переводных соответствий приводит к уменьшению их количества, а ее снижение — к росту ошибок и, следовательно, к росту объема работ по корректировке выходных результатов. Альтернативным методом решения задачи здесь может быть установление переводных соответствий между разноязычными словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на другой. При этом частота встречаемости наименований понятий в текстах не будет оказывать никакого влияния на качество получаемых результатов.
Установление переводных соответствий между разноязычными словами и словосочетаниями может осуществляться также и в процессе интерактивного перевода одноязычных текстов, без привлечения билингв, а формируемый при этом словарь пользователя может использоваться для пополнения основного политематического словаря системы ИЗТИЛЫЙ и ее дополнительных тематических словарей.
Как уже было указано, первая версия системы КЕТКАЫБ появилась в 1993 г. Она стала использоваться в интерактивном режиме для перевода текстов с русского языка на английский и с английского на русский и для наращивания словарных массивов. При этом сначала наращивались дополнительные тематические словари. Затем на их основе пополнялись основные политематические словари.
Для пополнения основных политематических словарей использовались также словари, изданные на бумажных носителях. Эти словари сначала вводились в ЭВМ и форматировались, затем из них исключались словарные статьи, входы которых совпадали с входами основных словарей. Оставшиеся словарные статьи включались в основные словари. При необходимости, они предварительно редактировались.
После разработки метода автоматического концептуального анализа текстов без контроля по тезаурусу он стал широко использоваться для составления двуязычных фразеологических словарей. При этом применялся следующий порядок действий:
1. Формирование представительного корпуса текстов на английском или на русском языке (обычно объемом не менее 100 мегабайт);
2. Концептуальный анализ корпуса текстов и составление по нему частотного словаря наименований понятий (слов и словосочетаний);
3. Выделение из частотного словаря п. 2 наиболее часто встречающихся наименований понятий (с частотой встречаемости не менее трех);
4. Автоматический перевод словаря наименований понятий п. 3 с русского языка на английский или с английского на русский (в зависимости от языковой принадлежности этого словаря):
5. Исключение из двуязычного словаря п.4 словарных статей, входы которых полностью совпали с входами машинных словарей системы КЕТкАНБ и которым были присвоены переводные эквиваленты из этих словарей;
6. Просмотр и, при необходимости, корректировка словаря, сформированного в п. 5. При корректировке словаря использовалась система КЕТКАЫЗ в интерактивным режиме ее работы.
Работы по пополнению и корректировке словарей систем фразеологического машинного перевода должны вестись непрерывно. Для этого необходимо создавать автоматизированную словарную службу. Эта служба должна опираться на развитую систему программных средств, включающую процедуры морфологического, синтаксического и концептуального анализа и синтеза текстов, процедуры составления словарей и процедуры, необходимые для выполнения операций над словарями.
В главе 5 диссертации описывается опыт создания и эксплуатации системы фразеологического машинного перевода RETRANS (Russian-English TRANslation System). Эта система с самого начала привлекла внимание ряда государственных учреждений в России и за рубежом (Франция, США, Англия). В России она применялась в Управлении Международного научно-технического сотрудничества Миннауки и технологий РФ, в ВИНИТИ РАН и во ВНТИЦентре. Так, в ВИНИТИ с помощью этой системы были переведены с русского языка на английский политематические реферативные базы данных общим объемом более 1500 авторских листов (более 7,5 миллионов слов), а с английского языка на русский - одна книга по медицине объемом 15 авторских листов. Во ВНТИЦентре было подготовлено более 10 англоязычных тематических баз данных (по охране окружающей среды, химии, химическим технологиям и др.). В Миннауки переводилась служебная документация.
Одновременно с переводом текстов с русского языка на английский и с английского на русский велось пополнение машинных словарей системы RETRANS. К 1995 г. их объем вырос до 500 тыс. словарных статей для каждого направления перевода. После первой версии системы RETRANS было создано еще несколько версий этой системы.
В 2000 г. в ВИНИТИ РАН была построена экспериментальная система поиска информации в русскоязычных базах данных по неформализованным запросам, сформулированным на английском языке, с выдачей результатов поиска также на английском языке. Эта система состояла из четырех основных компонент: 1) реферативной базы данных объемом более 20 миллионов записей; 2) СУБД типа "Сокол"; 3) системы автоматического перевода па русский язык и автоматической формализации запросов, представленных на английском языке; 4) системы автоматического перевода результатов поиска информации с русского языка на английский. Эксплуатация системы подтвердила ее эффективность.
Дальнейшее развитие системы RETRANS происходило в направлении совершенствования ее декларативных и процедурных средств и их адаптации к условиям функционирования в различных государственных учреждениях России. Особый акцент делался на ускоренные темпы освоения фразеологического богатства русского и английского языков. В результате этой деятельности политвматические словари системы RETRANS увеличились до объема 2,6 миллиона словарных статей по каждому направлению перевода (русско-английскому и англо-русскому) или, в ином измерении, — до объема 130 мегабайт. Если оформить эти два словаря в книжном форме, то получшпея библиотека, состоящая из 84 томов по 1000 страниц в каждом. Насколько нам известно, это самые большие в мире двуязычные машинные словари. В Приложениях к диссертации приведены небольшие фрагменты этих словарей.
Совершенствование процедурных средств системы RENRANS и пополнение ее основных политематических и дополнительных настроечных словарей велось с расчетом на широкий спектр применений. Однако, в связи с необходимостью адаптации этой системы к условиям функционирования конкретных государственных учреждений, в разные периоды времени акцент делался на решение задач этих учреждений. Например, в период времени с середины 2002 года до середины 2005 года основные усилия разработчиков системы были направлены на решение задач Федеральной налоговой службы Российской Федерации, а в период времени с середины 2005 года до начала 2006 года - на решение задач Федерального агентства кадастра объектов недвижимости и Центра подготовки космонавтов им. Ю.А.Гагарина.
Совершенствование процедурных средств системы RETRANS велось по следующим направлениям: 1) корректировка программных средств семантико-синтаксического анализа и синтеза русских и английских текстов; 2) корректировка и пополнепие грамматических таблиц, используемых в процедурах семантико-синтаксического анализа и синтеза текстов; 3) совершенствование комплексов программ, обеспечивающих комфортность работы пользователей и разработчиков системы RETRANS (интерфейсов пользователей и интерфейсов разработчиков); 4) разработка программных комплексов, обеспечивающих функционирование системы RETRANS в сетевом режиме (в локальных сетях и в глобальной сети Internet).
Первые положительные отзывы о системе RETRANS были получены в 1994 году из США и Франции. Руководители проекта были приглашены в эти страны и выступили там с докладами на национальных научных конференциях. Доклады получили высокую оценку, а их авторы были поощрены (например, в США они были приняты в члены ASIS -Американского общества по информатике). Были положительные отзывы и от руководителей российских государственных учреждений (например, от Министерства по науке и технологиям РФ и от ВНТИЦентра).
Российская печать также не обходила систему RETRANS молчанием. В популярных компьютерных журналах в течение семи лет неоднократно публиковались положительные отзывы об этой системе. Во всех этих отзывах отмечалось высокое качество перевода. В Приложении к диссертации приведены образцы перевода фрагментов текстов с английского языка на русский и с русского языка на английский.
В системе RETRANS используются многие результаты исследований и разработок, полученные в течение полувекового периода развития систем автоматической обработки текстовой информации. Но у нее есть и ряд черт, характерных только для этой системы и отличающих
ее от других систем аналогичного назначения. Такими отличительными чертами являются следующие:
1. Здесь впервые реализована прогрессивная концепция фразеологического машинного перевода, обеспечивающая более высокое качество перевода, чем господствовавшая ранее концепция семантико-синтаксического преимущественно пословного перевода;
2. Здесь также впервые в широких масштабах применен метод аналогии при построении процедур морфологического анализа и синтеза текстов и их синтаксического анализа, что делает эту систему "открытой" и облегчает ее настройку на перевод текстов любой тематики и с любым лексическим составом;
3. В системе RETRANS используются самые большие в мире русско-английские и англо-русские политематические фразеологические словари (общим объемом около б млн. 400 тыс. словарных статей), что благотворно влияет на качество перевода. Основное ядро этих словарей составлено по оригинальным текстам в процессе их автоматического концептуального анализа и в процессе машинного перевода;
4. При вводе в систему RETRANS новых слов и новых фразеологических единиц не требуется сопровождать их никакой грамматической информацией: такая информация определяется системой автоматически. Это создает большие удобства для пользователей системы.
Список основных работ диссертанта, опубликованных по теме диссертации
1. Хорошилов A.A. и др. Алгоритм многоступенчатого морфологического анализа текстов / Белоногов Г.Г., Калинин Ю.П., Поздняк М.В., Хорошилов A.A., Яфаева Г.М. // Тез.докл. XIII Всесоюзного семинара "Системные исследования ГАСНТИ" -М.:ВИНИТИ, 1982,- С.24-26 (0,2 п.л.).
2. Хорошилов A.A. и др. Принципы многоступенчатого морфологического анализа/ Белоногов Г.Г., Губайдуллина Г.М., Калинин Ю.П., Поздняк М.В., Хорошилов A.A.. // Тез.докл. IV школы-семинара "Интерактивные системы", Сухуми, 1982. -С. 22-24(0,2 п.л.).
3. Хорошилов A.A. и др. Алгоритм многоступенчатого морфологического анализа русских слов / Белоногов Г.Г., Калинин Ю.П., Поздняк М.В., Хорошилов A.A. // Научно-техническая информация. Сер.2.- 1983. -№> 7. -С. 6-10 (0,46 пл.).
4. Хорошилов A.A. и др. Автоматизация лингвистической обработки словарей / Белоногов Г.Г., Загика Е.А., Калинин Ю.П., Хорошилов A.A. // Научно-техническая информация. Сер.2. - 1983. -№ 11. -С. 20-24 (0,46 п.л.).
5. Хорошилов A.A. Автоматический морфологический анализ "новых"слов/ Белоногов Г.Г., Загика Е.А., Калинин Ю.П., Новоселов А.П., Хорошилов A.A., Яфаева Г.М. // Тез.докл. XIV Всесоюзного семинара "Системные исследования ГАСНТИ", ВИНИТИ, 1983. -С. 24-25 (0,15 п.л.).
6. Хорошилов A.A. и др. Инвертированный словарь словообразовательных классов слов / Белоногов Г.Г., Калинин Ю.П., Новоселов А.П, Поздняк М.В., Хорошилов A.A., Яфаева Г.М. - М.: ВИНИТИ, 1983. - Деп. в ВИНИТИ 10.05.83, № 2502-83, 88 с. (5,81 п.л.)
7. Хорошилов A.A. и др. Морфологический анализ слов / Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. // Автоматизированная обработка научно-технической информации. Итоги науки и техники. Серия "Информатика". -М.: ВИНИТИ, 1984. -С.25-34 (0,66 п.л.).
8. Хорошилов A.A. и др. Автоматический синтаксический анализ текстов / Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. // Автоматизированная обработка научно-технической информации. Итоги науки и техники. Серия "Информатика". - М.: ВИНИТИ, 1984. -С. 35-49 (0,99 п.л.).
9. Хорошилов A.A. и др. Автоматизированная словарная служба / Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. // Автоматизированная обработка научно-технической информации. Итоги науки и техники. Серия "Информатика". -М.: ВИНИТИ, 1984. -С. 49-70 (1,39 п.л.).
10. Хорошилов A.A. и др. Автоматизированное обнаружение и исправление ошибок в текстах / Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. // Автоматизированная обработка научно-технической информации. Итоги науки и техники. Серия "Информатика". - М.: ВИНИТИ, 1984. -С.71-78 (0,53 п.л.).
11. Хорошилов A.A. и др. Приложение 2. Словообразовательные классы слов Автоматизированная обработка научно-технической информации / Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. // Итоги науки и техники. Серия "Информатика". -М. : ВИНИТИ, 1984.-С. 163-296 (8,78 п.л.).
12. Хорошилов A.A. и др. Автоматизированная словарная служба ВИНИТИ / Белоногов Г.Г., Загика Е.А., Кузнецов Б.А., Штурман Я.П., Хорошилов А. А. // Тез. докл. XV Всесоюзного семинара "Системные исследования ГАСНТИ",-М.: ВИНИТИ, 1985. -С. 30-32 (0,2 п.л.).
13. Хорошилов A.A. и др. Автоматическая нормализация слов, выражающих сказуемое/ Хорошилов A.A. Новоселов А.П. // Тез.докл. XV Всесоюзного семинара "Системные исследования ГАСНТИ",- М.: ВИНИТИ, 1985.-С. 34-35 (0,15 п.л.).
14. Хорошилов A.A. и др. Словообразовательные классы русских слов/ Белоногов Г.Г., Самоделкина С.Я., Панова Н.С., Рыжова Е.Ю.„
Хорошилов A.A., Матвеева Е.Г. // Научно-техническая информация, Сер.2,- 1985. -№ 12. -С. 22-24 (0,27 п.л.).
15. Хорошилов A.A. и др. Алгоритм автоматической нормализации слов/ Новоселов А.П., Хорошилов A.A. // Вопросы информационной теории и практики. - М.: ВИНИТИ, 1985. -N 53,-С. 67-71 (0,33 п.л.).
16. Хорошилов А.А и др. Автоматическая нормализация слов и словосочетаний/ Белоногов Г.Г., Загика Е.А., Новоселов А.П, Хорошилов А.А // Научно-техническая информация, Сер.2,- 1985. -№ 1. -С. 37-40 (0,36 п.л.).
17. Хорошилов A.A. и др. Таблица подстановок для нормализации слов/ Хорошилов A.A. Новоселов А.П., Белоногов Г.Г. // Вопросы информационной теории и практики. - М.: ВИНИТИ, 1985. -№53.-С. 34-35 (0,37 п.л.)
18. Хорошилов A.A. и др. Большой машинный политематический словарь ВИНИТИ/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П, Панова Н.С., Рыжова Е.Ю., Хорошилов A.A., Штурман Я.П. // Тез.докл. XVI Всесоюзного семинара "Системные исследования ГАСНТИ". -М.: ВИНИТИ, 1987. -С.26-28 (0,2 п.л.).
19. Хорошилов A.A. и др. Машинный политсматический словарь основ слов/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П., Панова Н.С., Рыжова Е.Ю., Хорошилов A.A., Штурман Я.П. // Научио-техническая информация, Сер.2,- 1988. -№ 9. -С. 26-29 (0,2 п.л.).
20. Хорошилов Ал-др А. и др. Анализ фонда иноязычных слов в ретроспективных базах данных ВИНИТИ/ Хорошилов Ал-сей А., Штурман Я.П., Хорошилов Ал-др А. // Вопросы информационной теории и практики,-М.:ВИНИТИ, 1989. -№58.-С. 144-154 (0,73 п.л.).
21. Хорошилов A.A. и др. Компьютерная лингвистика в системе НТИ/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П., Пащенко H.A., Хорошилов A.A. // Вопросы информационной теории и практики.-М.:ВИНИТИ, 1989. -№58 .-С.5-22 (1,19 п.л.).
22. Хорошилов A.A. и др. Машинный политематический словарь английского языка/ Ефременко И.Л., Зеленков Ю.Г., Старизный А.Е., Тимошенко А.И., Хорошилов A.A. // Вопросы информационной теории и практики,- М.:ВИНИТИ, 1989. -№58.-С. 101-108 (0,53 п.л.).
23. Хорошилов A.A. и др. Диалоговая система поиска в словарях словосочетаний (система ДПС-СЛОВАРЬ)/ Зеленков Ю.Г., Новоселов А.П., Хорошилов A.A., Белоногов Г.Г. // Тез.докл. межцунар. научп. семинара "Состояние и проблемы развития национальных сетей и систем научно-технической информации",- М.: ВИНИТИ, 1991. С.43-45 (0,2 п.л.).
24. Хорошилов A.A. и др. Интерактивная система автоматизированного реферирования документов на основе словарей
стандартных фраз (система РЕФЕРАТ)/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П., Пащенко H.A., Хорошилов A.A.// Тез.докл. между нар. научн. семинара "Состояние и проблемы развития национальных сетей и систем научно-технической информации",- М.: ВИНИТИ, 1991. -С.48-50 (0,2 пл.).
25. Хорошилов A.A. и др. Автоматизация процессов обнаружения и исправления ошибок в текстах/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Хорошилов A.A. // Научно-техническая информация, Сер.1,- 1991. -№7-8. -С.45-47 (0,27 пл.).
26. Хорошилов Ал-др А. и др. Автоматизация составления и ведения словарей для систем фразеологического машинного перевода текстов с русского языка на английский и с английского на русский/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2.- 1993. № 12.-С. 16-21 (0,67 пл.).
27. Хорошилов Ал-др А. и др. Интерактивная система русско-английского и англо-русского машинного перевода политематических научно-технических текстов/ Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П., Пащенко H.A., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2.- 1993. -№ 3. -С. 20-27 (0,79 пл.).
28. Хорошилов Ал-др А. и др. Системы фразеологического машинного перевода текстов с русского языка на английский и с английского на русский// Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Материалы междунар. конф. НТИ-95 "Информационные продукты, процессы и технологии". - М.: ВИНИТИ, 1995. С.32-36 (0,2 пл.).
29. Хорошилов Ал-др А. и др. Системы фразеологического машинного перевода - технология XXI века/ Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Материалы междунар. конф. НТИ-97 "Информационные ресурсы, интеграция, технологии". -М.: ВИНИТИ, 1997. -С.42-43 (0,2 пл.).
30. Хорошилов Ал-др А. и др. Защита окружающей среды и языковые барьеры/ Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Круглый стол "Информационная поддержка устойчивого развития". - М.: Институт промышленного развития, 1998. -С. 31-32(0,2 пл.).
31. Хорошилов Ал-др А. и др. Системы фразеологического машинного перевода. Состояние и перспективы развития/ Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. //Научно-техническая информация, Сер.2.- 1998. -№ 12. -С. 16-23 (0,79 пл.).
32. Хорошилов Ал-др А. и др. Системы фразеологического машинного перевода. Состояние и перспективы развития/ Белопогов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей
A. // Материалы междунар. конф. НТИ-99, М.: ВИНИТИ, 1999. -С. 25-27 (0,32 п.л.).
33. Хорошилов Ал-др А. и др. Метод аналогии в компьютерной лингвистике / Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2,- 2000. -№ 1. -С.21-31 (1,02 п.л.).
34. Хорошилов A.A. и др. Лексическое богатство поисковых образов документов в базах данных ВИНИТИ / Козачук М.В., Хорошилов A.A. // Материалы междунар. конф. НТИ-2000. - М.: ВИНИТИ, 2000. -С.27-29 (0,2 п.л.).
35. Хорошилов Ал-др А. и др. Система русско-английского и англорусского машинного перевода RETRANS в 2000 г./ Белоногов Г.Г., Егоров
B.C., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А., Шошн А.Н. // Материалы междунар. конф. НТИ-2000. - М.: ВИНИТИ, 2000. С.24-26 (0,2 п.л.).
36. Хорошилов Ал-др А. и др. Большой политематический англорусский (русско-английский) машинный словарь по естественным и техническим наукам, экономике и политике/ Белоногов Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А., Ефременко И.Л., Рыжова Е.Ю., Гуськова Л.Ю. //Материалы междунар. конф. НТИ-2000. - М.: ВИНИТИ, 2000. - С. 28-29 (0,2 п.л.).
37. Хорошилов A.A. и др. Автоматический перевод на русский язык англоязычных запросов и их формализация при поиске информации в русскоязычных реферативных базах данных / Белоногов Г.Г., Гиляревский Р.С, Егоров B.C., Новоселов А.П., Хорошилов A.A., Шогин А.Н. // Научно-техническая информация, Сер.2,- 2000. -№ 8. -С. 34-38 (0,54 п.л.).
38. Хорошилов A.A. и др. Системы фразеологического машинного перевода RETRANS и ERTRANS в сети Интернет / Белоногов Г.Г., Гиляревский Р.С, Егоров B.C., Хорошилов A.A., Шогин А.Н. // Научно-техническая информация, Сер.1,- 2000. - № 3. - С. 10-11 (0,2 п.л.).
39. Хорошилов A.A. и др. Автоматическая классификация текстов / Белоногов Г.Г., Гиляревский P.C., Козачук М.В., Новоселов А.П., Хорошилов A.A. // Междунар. форум по информатике, т.26. - 2001. -№ 2. -
C.3-9 (0,64 п.л.).
40. Хорошилов Ал-др А. и др. Каким быть машинному переводу в XXI веке / Белоногов Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М.В., Рыжова Е.Ю., Гуськова Л.Ю. // Перевод: традиции и современные технологии /М.: ВЦП, 2002. -С 56-69 (0,92 п.л.).
41. Хорошилов А. А. и др. Автоматический концептуальный анализ текстов/ Белоногов Г.Г., Быстров И.И., Козачук М.В. Новоселов А.П., Хорошилов А.А // Научно-техническая информация, Сер.2,- 2002. -№ 10. -С. 26-32 (0,64 п.л.).
42. Хорошилов Ал-др А и др. О возможности поиска информации в русскоязычных базах данных ВИНИТИ по запросам, сформулированным на основных европейских языках / Белоногов Г.Г., Гиляревский Р.С., Козачук М.В., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2.- 2002. -№ 3. -С. 27-30 (0,36 п.л.).
43. Хорошилов Ал-др А. и др. Автоматическое распознавание смыслового тождества и смысловой близости русских слов на основе их смыслового анализа и синтеза / Белоногов Г.Г., Гиляревский Р.С., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2,- 2003. -№ 1. -С. 30-33 (0,36 п.л.).
44. Хорошилов Ал-др А. и др. Компьютерная лингвистика и перспективные информационные технологии / Белоногов Г.Г., Калинин Ю.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2.- 2004. -№ 8. -С. 22-32 (1,02 п.л.).
45. Хорошилов А.А. и др. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации / Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А./ - М.: Русский мир, 2004. -264 с. (17,42 п.л.).
46. Хорошилов Ал-др А. и др. Единицы языка и речи в системах автоматической обработки текстовой информации/ Белоногов Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Научно-техническая информация, Сер.2,- 2005. -№11. -С. 21-29 (0,82 п.л.).
47. Хорошилов А.А. и др. Опыт внедрения программного комплекса "Переводчик" в налоговые органы России / Толгская Е.Р., Хорошилов А.А., Белоногов Г.Г. // Научно-техническая информация, Сер.2.- 2005. -№ 2. -С. 30-37 (0,73 п.л.).
48. Хорошилов А.А. Архитектура систем фразеологического машинного перевода // Научно-техническая информация, Сер.2.- 2006. -№ 5. -С. 15-19 (1,02 п.л.).
49. Khoroshilov A. ors. Systems of Phraseological Machine Translation of Polythematic Texts from Russian into English and from English into Russian (RETRANS and ERTRANS Systems)/ Belonogov G„ Khoroshilov A., Kuznetsov В., Novoselov A., Zelenkov Yu. II International Forum on Information and Documentation. Vol. 20. - № 2. - 1995. -P.29-35 (0,64 п.л.).
50. Khoroshilov Al-dr. ors. System of Phraseological Machine Translation. State and Prospects of Developmen / Belonogov G., Zelenkov Yu., Novoselov
A., Khoroshilov Al-dr, Khoroshilov Al-sej. // 4-th International Conference "Integration, Information, Technologies, Telecommunications", March 17-19, 1999.-P. 37-41 (0,46 пл.).
Список отчетов о научно-исследовательских работах по теме диссертации
51. Хорошилов A.A. Разработка технологии перевода баз данных ВИНЙТИ с русского языка на английский с использованием системы RETRANS (системы русско-английского машинного фразеологического перевода политематических текстов) / Белоногов Г.Г., Хорошилов A.A. // Отчет по НИР. Гос.рег. № 01980004866.-М.: ВНТИЦ, 1998. - 25 с. (1,65 п.л.).
52. Хорошилов A.A. Разработка технологии перевода зарубежных баз данных с английского языка на русский с использованием системы машинного перевода ERTRANS / Белоногов Г.Г., Хорошилов A.A. // Отчет по НИР. Гос.рег. № 01980004915.-М.: ВНТИЦ, 1998. - 37с. (2,52 п.л.)
53. Хорошилов A.A. Совершенствование системы машинного перевода научно-технических текстов с английского языка на русский. / Белоногов Г.Г., Хорошилов A.A. // Отчет по НИР. Гос.рег. № 02980004016.-М.: ВНТИЦ, 1998. - 11с. (0,7 п.л.)
54. Хорошилов A.A. Создание русско-английского и англо-русского сервера-переводчика. / Белоногов Г.Г., Хорошилов A.A. //Отчет по НИР. Гос.рег. № 02200002895.-М.: ВНТИЦ, 2000. - 18с. (1,32 п.л.)
55. Хорошилов A.A. Совершенствование русско-английского и англорусского сервера-переводчика в сети ВИНИТИ, работающего в режиме онлайн и отсылающего переведенные тексты абонентам. / Белоногов Г.Г., Егоров B.C., Хорошилов A.A. // Отчет по НИР. Гос.рег. № 02200103949,-М.: ВНТИЦ, 2001. - 9с. (0,52 п.л.)
56. Хорошилов A.A. Адаптация системы англо-русского перевода к технологии единой технологической базы данных. / Белоногов Г.Г., Егоров
B.C., Хорошилов A.A. // Отчет по НИР. Гос.рег. № 02200103950,-М.:ВНТИЦ, 2001,- 15с. (1,12 п.л.)
Оглавление автор диссертации — доктора технических наук Хорошилов, Александр Алексеевич
Введение.
Глава 1. Единицы языка и речи в системах автоматической обработки текстовой информации.
Глава 2. Концепция фразеологического машинного перевода текстов с одних естественных языков на другие.
2.1. Предварительные замечания.
2.2. Концепция фразеологического машинного перевода текстов.
2.3. Пути реализации концепции фразеологического машинного перевода.
2.3.1. Некоторые общие соображения.
2.3.2. Морфологический анализ и синтез русских и английских слов.
2.3.3. Семантико-синтаксический анализ и синтез текстов.
2.3.4. Концептуальный анализ и синтез текстов.
2.3.5. Разрешение грамматической неоднозначности английских слов с помощью метода аналогии.
2.3.6. Трансфер.
Выводы.
Глава 3. Архитектура систем фразеологического машинного перевода.
3.1. Декларативные и процедурные средства систем машинного перевода.
3.2. Общий порядок работы системы RETRANS.
Выводы.
Глава 4. Автоматизация составления и ведения словарей для систем фразеологического машинного перевода.
4.1. Предварительные замечания.
4.2. Составление словарей наименований понятий с контролем по тезаурусу.
4.3. Составление словарей наименований понятий без контроля по тезаурусу.
4.4. Установление переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам (билингвам).
4.4.1 Статистический метод установления переводных соответствий между словами.
4.4.2. Статистический метод установления переводных соответствий между словосочетаниями.
4.4.3. Установление переводных соответствий между., словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на другой.
4.5. Общий порядок автоматизированного составления и ведения фразеологических машинных словарей.
Выводы.
Глава 5. Опыт создания и эксплуатации систем фразеологического машинного перевода.
5.1. Начальный этап создания системы RETRANS.
5.2. Дальнейшее развитие системы RETRANS.
5.3. Опыт эксплуатации системы RETRANS.
Выводы.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Хорошилов, Александр Алексеевич
переводчики".139
Приложение 2. Фрагменты основного русско-английского политематического словаря системы RETRANS.141
Приложение 3. Фрагменты основного англо-русского политематического словаря системы RETRANS.163
Приложение 4. Фрагменты словаря по аэронавтике и космонавтике.171
Приложение 5. Модификации системы фразеологического машинного перевода.175
Приложение 6. Программный комплекс "Система фразеологического машинного перевода
RETRANS 2005". Руководство пользователя.183
Приложение 7. Сервер-переводчик RETRANS
Server 2005. Руководство администратора.216
Приложение 8. Свидельства об официальной регистрации систем фразеологического машинного перевода.239
Приложение 9. Примеры перевода фрагментов текстов с английского языка на русский и с русского языка на английский с помощью системы RETRANS.242
Приложение 10. Практическое использование системы RETRANS в России и за рубежом.249
Приложение 11. Публикации о системе RETRANS в популярных компьютерных журналах.250
Введение
Современное человеческое общество характеризуется высоким уровнем активности в различных областях деятельности (экономика, политика, наука, техника, культура и др.). Это привело к быстрому росту объемов информации, циркулирующей между отдельными лицами и коллективами людей, и к трудностям по их освоению. Создалась ситуация, которую стали обозначать термином "информационный взрыв".
Положение осложнилось еще и тем, что между странами и народами существуют языковые барьеры, которые при возрастании потоков информации стало трудно преодолевать. Традиционные методы их преодоления (обучение языкам и переводческая деятельность) оказались недостаточными. Возникла необходимость искать альтернативные пути решения проблемы.
Возможность поиска новых путей решения проблемы появилась к середине 50-х годов прошлого столетия, когда были построены первые электронные вычислительные машины. Эти машины являются по существу универсальными алгоритмическими машинами, на которых можно решать не только "вычислительные" задачи, но и любые другие задачи, описываемые с помощью алгоритмов: логический вывод, распознавание образов, машинный перевод текстов, игра в шахматы и многие другие.
Перевод текстов с одних языков на другие - сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний предметных областей, к которым переводимые тексты относятся. Он осуществляется на основе восприятия и понимания человеком исходного текста и последующей передачи его содержания средствами выходного языка. При этом переводятся не столько значения слов и их последовательностей, сколько мыслительные образы, порождаемые в сознании переводчика под их воздействием.
Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит прежде всего от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. А эти законы пока еще недостаточно изучены. Поэтому, решая задачу машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. Этот опыт свидетельствует о том, что в процессе перевода текстов в качестве основных единиц смысла выступают прежде всего не отдельные слова, а фразеологические словосочетания, выражающие понятия. Именно понятия являются теми элементарными мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.
Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло более полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых - начала шестидесятых годов прошлого века.
Первое разочарование наступило уже через 12 лет после начала работ по машинному переводу, когда в 1966 г. был опубликован доклад Консультативного комитета по автоматической обработке текстовой информации (Automatic Language Processing Advisory Committee -ALPAC), созданного при Национальной академии наук и Национальном исследовательском комитете США. Этот комитет рассмотрел состояние и основные проблемы перевода текстов - в основном русскоязычных - на английский язык и на другие языки в США и в Западной Европе, в том числе с помощью ЭВМ. Комитет пришел к выводу, что "хотя в настоящее время и имеются системы, осуществляющие перевод обычных научных текстов с использованием машины, реального МП нет. Более того, нет никаких оснований считать, что он возникнет в недалеком будущем или вообще в какие-либо реально планируемые сроки" [82].
В качестве второго авторитетного свидетельства неблагополучного состояния исследований и разработок в области машинного перевода можно рассматривать заявление руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото, сделанное им в одном из своих докладов, опубликованном в 1982 г. Он заявил следующее: "Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже". А в 1984 году он опубликовал статью [97], в которой предложил новую концепцию машинного перевода. Согласно этой концепции тексты должны переводиться по аналогии с другими текстами, ранее переведенными вручную
До Макото Нагао аналогичные идеи высказывал профессор Белоногов Г.Г. В 1975 году он сформулировал концепцию фразеологического машинного перевода текстов, которую опубликовал в предисловии к книге Д.А. Жукова "Мы - переводчики" [45]. Главным тезисом этой концепции является утверждение, что при переводе текстов в качестве основных единиц смысла следует рассматривать не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Отдельные слова также могут использоваться, но во вторую очередь. Более подробно эта концепция изложена в главе 2.
В качестве пионеров машинного перевода в России выступили такие ученые как Панов Д.Ю., Ляпунов А.А., Мухин И.С., Вельская И.К [62, 63]. За ними последовали Кулагина О.С., Мельчук И.А., Моторин Ю.А.,. Марчук Ю.Н.,. Пиотровский Р.Г. и многие другие.
Надо отдать должное пионерам МП и их ближайшим последователям. Они немало сделали в области теории и практики машинного перевода. Но многие важнейшие проблемы ими не были решены. Например, до последнего времени неудовлетворительно решалась проблема выбора переводных эквивалентов для слов и словосочетаний исходного текста.
При решении этой проблемы стремились прежде всего получить грамматически правильный пословный перевод, а полисемия слов разрешалась в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно пословного перевода. Словосочетания здесь также использовались, но в меньшей степени.
На наш взгляд, семантико-синтаксический преимущественно пословный машинный перевод текстов не имеет перспективы, так как в естественных языках смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов, и при переводе он не может быть "вычислен" на основе синтаксических и семантических признаков этих слов. Поэтому концепция семантико-синтаксического преимущественно пословного перевода должна быть заменена на концепцию семантико-синтаксического преимущественно фразеологического перевода [36]. Такой подход в большей мере соответствует природе естественных языков.
Целью настоящего исследования является разработка теоретических основ и методов построения систем фразеологического машинного перевода текстов с одних естественных языков на другие (на примере русского и английского языков).
Предметом исследования - понятийный состав русских и английских текстов, их семантико-синтаксическая структура, структура переводных соответствий между наименованиями понятий.
В процессе работы над диссертацией использовались следующие методы исследования: 1) Выявление понятийного состава русских и английских текстов по их репрезентативным выборкам; 2) изучение структуры переводных соответствий между смысловыми единицами русского и английского языков и составление двуязычных фразеологических словарей; 3) моделирование на ЭВМ процедур фразеологического машинного перевода текстов с русского языка на английский и с английского на русский; оценка эффективности построенных моделей.
Основные научные результаты работы:
1. Дано теоретическое обоснование возможности создания систем фразеологического машинного перевода текстов с одних естественных языков на другие.
2. При участии автора (а последние пять лет и под его руководством) разработана и реализована в виде действующей компьютерной модели система фразеологического машинного перевода текстов с русского языка на английский и с английского на русский -система RETRANS.
3. Разработан ряд основополагающих принципов и методов построения систем фразеологического машинного перевода, в частности:
3.1. Методы автоматизированного составления и ведения фразеологических машинных словарей. На основе этих методов к концу 2005 г. были составлены русско-английский и англо-русский политематические машинные словари общим объемом более 5 млн. 200 тыс. словарных статей.
3.2. Методы семантико-синтаксического анализа и синтеза русских и английских текстов.
3.3. Принципы построения и алгоритмы функционирования интерфейса пользователя системы фразеологического машинного перевода, позволяющего быстро настраивать эту систему на перевод текстов различной тематики.
3.4 Принципы функционирования системы RETRANS в среде телекоммуникационных сетей типа Internet и Intranet, позволяющие осуществлять машинный перевод текстов в режиме удаленного доступа.
Научная новизна работы:
1. Научная новизна работы состоит прежде всего в том, что автором диссертации совместно с коллективом разработчиков была впервые предложена, обоснована и реализована в виде действующей компьютерной модели архитектура системы фразеологического машинного перевода текстов с русского языка на английский и с английского на русский. Тем самым была доказана возможность фразеологического машинного перевода текстов с одних языков на другие. Это создало реальные перспективы выхода из того тупика, в котором в началу 80-х годов прошлого столетия оказались исследования и разработки по машинному переводу, ориентированные на семантико-синтаксический преимущественно пословный перевод.
2. Создание системы фразеологического машинного перевода текстов стало возможным благодаря тому, что автором были разработаны методы, алгоритмы и программы автоматизированного составления и ведения словарей для такой системы и совместно с другими ее разработчиками были составлены русско-английский и англо-русский фразеологические политематические машинные словари беспрецедентного объема - 2,6 млн. словарных статей каждый. Эти словари покрывают лексический состав современных текстов на 99,7% и представляют собой мощную двуязычную концептуальную модель широкого спектра областей человеческой деятельности.
Практическая значимость работы:
В диссертационной работе получены научные результаты, которые позволили впервые построить промышленную систему фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский.
Первая промышленная версия системы RETRANS была создана в 1993 году [28, 29], а в 1996 году она была зарегистрирована в РосАПО (свидетельство об официальной регистрации № 960342 от 30.07.1996 г.). В дальнейшем система RETRANS непрерывно совершенствовалась, создавались ее различные версии и в 2005 году она была зарегистрирована в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам под именем "Система фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский RETRANS-2005" (свидетельство об официальной регистрации № 2005612876 от 7.11.2005 г.). Система RETRANS обеспечивает такое качество перевода, которое позволяет ее использовать в различных государственных учреждениях России и за рубежом.
Апробация:
Результаты исследований и разработок автора опубликованы в 49-ти тезисах докладов и научных статьях [24, 28, 29, 31-37, 39, 61, 75, 80, 88], а также в одной монографии [38]. Они неоднократно обсуждались на научных конференциях и реализованы в промышленных версиях системы фразеологического машинного перевода RETRANS.
Личный вклад автора в исследования и разработки:
Автор в течение более двадцати лет работал в ВИНИТИ в научном коллективе, проводившем под руководством проф. Белоногова Г.Г. широкий спектр исследований и разработок в области компьютерной лингвистики: автоматическое обнаружение и исправление орфографических ошибок в русских и английских текстах; автоматическая классификация документов, их автоматическое реферирование, индексирование и поиск; автоматическое составление различного рода словарей для систем автоматической обработки информации; машинный перевод текстов с русского языка на английский и с английского языка на русский.
Наиболее значительными являются исследования и разработки, выполненные автором в области фразеологического машинного перевода. Здесь он лично разработал методы, алгоритмы и программы автоматизированного составления и ведения фразеологических машинных словарей и методы семантико-синтаксического анализа и синтеза русских и английских текстов. С 2001 года и по настоящее время он осуществляет руководство всеми работами по дальнейшему развитию системы RETRANS.
Диссертация состоит из пяти глав и одиннадцати приложений. В первой главе обсуждаются различные точки зрения на статус единиц языка и речи и даются рекомендации по использованию этих единиц в системах автоматической обработки текстовой информации. Приводятся статистические данные о повторяемости в русских и английских текстах их отрезков различной длины, которые были получены путем анализа репрезентативных выборок из этих текстов.
Во второй главе излагается концепция фразеологического машинного перевода и указываются пути ее практической реализации. Описываются методы морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов.
В третьей главе рассматривается архитектура системы фразеологического машинного перевода и описывается порядок ее функционирования. Четвертая глава посвящена проблеме автоматизации составления и ведения словарей для систем фразеологического машинного перевода. Предлагаются методы решения этой проблемы. В заключительной пятой главе кратко излагается история создания системы RETRANS и описывается опыт ее промышленной эксплуатации. В Приложении приведены фрагменты машинных словарей, примеры перевода текстов с английского языка на русский и с русского на английский, руководство пользователя системы RETRANS 2005, руководство администратора системы RETRANS SERVER 2005 и другие материалы, подтверждающие основные положения диссертации.
Заключение диссертация на тему "Теоретические основы и методы построения систем фразеологического машинного перевода"
Выводы:
В системе машинного перевода RETRANS используются многие результаты исследований и разработок, полученные в течение полувекового периода развития систем автоматической обработки текстовой информации. Но у нее есть и ряд черт, характерных только для этой системы и отличающих ее от других систем аналогичного назначения. Такими отличительными чертами являются следующие:
1. Здесь впервые реализована прогрессивная концепция фразеологического машинного перевода, обеспечивающая более высокое качество перевода, чем господствовавшая ранее концепция семантико-синтаксического преимущественно пословного перевода;
2. Здесь также впервые в широких масштабах применен метод аналогии при построении процедур морфологического анализа и синтеза текстов и их синтаксического анализа, что делает эту систему "открытой" и облегчает ее настройку на перевод текстов любой тематики и с любым лексическим составом;
3. В системе RETRANS используются самые большие в мире русско-английские и англо-русские политематические фразеологические словари (общим объемом около 5 млн. 200 тыс. словарных статей), что благотворно влияет на качество перевода. Основное ядро этих словарей составлено по оригинальным текстам в процессе их автоматического концептуального анализа и в процессе машинного перевода;
4. При вводе в систему RETRANS новых слов и новых фразеологических единиц не требуется сопровождать их никакой грамматической информацией: такая информация определяется системой автоматически. Это создает большие удобства для пользователей системы.
Заключение
Проблема перевода человеческой речи с одних языков на другие существует с незапамятных времен, а профессия переводчика считается одной из древнейших [45]. И хотя за многие тысячелетия накоплен богатый опыт межплеменного и межнационального речевого общения, в настоящее время все еще возникают определенные трудности при переводе. Об этом свидетельствуют, например, гипотеза Сэпира-Уорфа о принципиальной невозможности точного перевода текстов с одного языка на другой и известное шутливое выражение "The translater is а traitor" (переводчик - предатель).
Трудности перевода текстов возникают в частности потому, что в различных языках, особенно не родственных, имеет место разная категоризация действительности - используются разные системы понятий. При этом часть понятий одного языка может полностью совпадать по объему с понятиями другого языка, другая часть - только частично. А для некоторых понятий их смысловые эквиваленты в другом языке вообще отсутствуют.
При машинном переводе текстов с одних языков на другие возникают дополнительные трудности, связанные с необходимостью формального описания их семантико-синтаксической структуры и установления переводных соответствий между смысловыми единицами. Примером тому может служить начальный период развития систем машинного перевода, когда их разработчики руководствовались неадекватной концепцией семантико-синтаксического преимущественно пословного перевода (см. Введение и Главы 1 и 2).
В качестве альтернативы этой концепции японский ученый профессор Макото Нагао предложил осуществлять машинный перевод текстов по аналогии с другими текстами, переведенными ранее вручную. При этом он предполагал, что может быть сформирован и загружен в мощную многопроцессорную ЭВМ достаточно большой массив текстов на одном языке и их переводов на другой язык (массив билингв) и, опираясь на этот массив, можно будет осуществлять перевод новых текстов [97]. Однако конкретные пути решения этой задачи им не были указаны. Попробуем представить их себе в самых общих чертах.
Прежде всего, зададим себе вопрос: как будет выбираться из массива билингв информация, необходимая для перевода исходного текста - сразу для всего этого текста или последовательно для его частей? Первый вариант заведомо исключается, так как трудно ожидать полного совпадения нового исходного текста с каким-либо ранее переведенным текстом или с его частью. Второй вариант более вероятен, но и здесь дело обстоит непросто: например, какого размера должны быть эти части, чтобы иметь шансы совпасть с какими-либо фрагментами ранее переведенных текстов? Из статистических данных, приведенных в Главе 1 диссертации, следует, что скорее всего это могут быть предложения или фрагменты предложений длиной не более 10-12 слов.
Предположим далее, что фрагменты исходного текста совпали с фрагментами какого-либо текста из массива билингв. Тогда возникает другой вопрос: а как найти переводные эквиваленты для найденных фрагментов? Чтобы получить такую информацию, нужно предварительно расчленить массив билингв на пары эквивалентных по смыслу коротких разноязычных фрагментов и зафиксировать переводные отношения между ними (отношения синонимии или квазисинонимии). Допустим, что это будут пары эквивалентных по смыслу разноязычных предложений. Но одни и те же предложения редко повторяются в разных текстах (см. Главу 1). Поэтому придется членить предложения на более короткие и более устойчивые единицы смысла. А это будут фразеологические единицы. Таким образом получается, что перевод текстов по аналогии с ранее переведенными текстами возможен только как их фразеологический перевод!
Нам неизвестно, была ли концепция Макото Нагао когда-либо реализована на практике. С некоторой натяжкой в качестве ее реализации можно рассматривать недавно появившиеся системы типа Translation Memory (другое их название - Sentence Memory). Но возможности таких систем весьма ограничены - они пригодны только для перевода узких классов однородных текстов, состоящих в основном из одинаковых предложений. В случае появления новых предложений они должны переводиться вручную [104]. При этом в качестве подсказки можно использовать информацию, извлекаемую из массива ранее накопленных двуязычных пар предложений.
Мы уже писали о том, что системы типа Translation Memory можно рассматривать в качестве частного случая систем фразеологического машинного перевода (см. параграф 3.2 Главы 3). Более того, в состав систем фразеологического перевода можно включать накопители двуязычных предложений и переводить тексты в режиме систем Translation Memory.
Итак, проблема автоматического перевода текстов с одних языков на другие должна решаться на основе концепции фразеологического машинного перевода. Другой разумной альтернативы нет. Об этом свидетельствует многолетний опыт исследований и разработок в области машинного перевода. Это должно быть положено в основу и при разработке будущих систем машинного перевода.
В последнее время большое значение придается автоматизированным информационным технологиям. Свидетельством тому является обсуждение этого вопроса на различных международных форумах. Так, 12 декабря 2003 года в Женеве (Швейцария) состоялся Всемирный Саммит, посвященный проблеме построения Информационного Общества. Он проходил под лозунгом: "Построение Информационного Общества - глобальный вызов нового тысячелетияСаммит принял два документа: Декларацию о принципах создания Информационного Общества и План работы по реализации этих принципов.
В Декларации формулируются принципы построения Информационного Общества с учетом социально-политических, правовых и гуманитарных аспектов. При этом подчеркивается центральная роль науки в развитии такого Общества и в развитии информационных и телекоммуникационных технологий.
В Плане конкретизируются пути построения открытого Информационного Общества. При этом указывается, что потенциал человеческих знаний и информационных и телекоммуникационных технологий следует направить на достижение задач развития, одобренных международным сообществом. Большое значение придается необходимости сохранения культурного многообразия и языковой самобытности народов, населяющих землю, и в этой связи подчеркивается важность исследований и разработок в области машинного перевода текстов с одних естественных языков на другие.
Но как решать проблему машинного перевода в масштабе всего мирового сообщества? Ведь по современным представлениям в мире насчитывается более 2500 различных языков [1]. Легко подсчитать, что если бы была поставлена задача перевода текстов с любого языка на любой другой, то пришлось бы создавать более 6 млн. 250 тыс. систем перевода (количество сочетаний из 2500 по два, помноженное на два). Это, конечно, нереально. Но если даже сократить количество привлекаемых языков до одной сотни, то и тогда число необходимых систем перевода будет достигать 9.900, что тоже неприемлемо.
Выходом из создавшегося затруднения мог бы быть отказ от построения систем машинного перевода с любого языка на любой другой, и вместо этого осуществлять перевод с помощью языка-посредника. Тогда можно было бы существенно сократить число разрабатываемых систем перевода. Так, например, в случае ста различных языков вместо 9.900 пришлось бы создавать только 99 систем перевода (в сто раз меньше!).
Идея языка-посредника была высказана еще на рубеже конца 50-х и начала 60-х годов прошлого столетия. Но она тогда не была реализована, так как для этого не было необходимых условий. Однако в настоящее время, в связи с улучшением качества машинного перевода, к этой идее можно было бы вернуться.
Среди различных предложений по языку-посреднику, выдвинутых пионерами машинного перевода, было предложение использовать в качестве такого языка искусственный язык Esperanto. На наш взгляд это неразумно, так как любой искусственный язык, имеет более бедную систему понятий, чем естественные языки, и не годится в качестве языка-посредника. В таком качестве может выступать только один из естественных языков с достаточно богатой системой понятий (например, русский, английский, немецкий или французский).
Скорее всего, развитие машинного перевода пойдет по пути разработки двуязычных систем перевода в интересах наиболее развитых стран мира. А по мере их создания постепенно будет появляться возможность перевода текстов и между новыми парами языков, не обеспеченными изначально системами перевода, через посредство имеющихся в наличии систем. И, возможно, только на более позднем этапе развития будет достигнуто соглашение о едином языке-посреднике или о нескольких таких языках.
Библиография Хорошилов, Александр Алексеевич, диссертация по теме Теоретические основы информатики
1. Большой энциклопедический словарь "Языкознание".- М.: Большая российская энциклопедия, 2000.
2. Автоматизированная словарная служба. Автоматическое индексирование документов. / Под ред. проф. Г.Г. Белоногова. II Вопросы информационной теории и практики М.: ВИНИТИ, 1985. - № 53.
3. Компьютерная лингвистика в системе научно-технической информации. / Под ред. проф. Г.Г. Белоногова. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1989. - № 58.
4. Действующие системы машинного перевода и автоматические словари. Обзорная информация, сер. "Машинный перевод и автоматизация информационных процессов". Вып. 3 .- М.: ВЦП, 1979.
5. Лингвистические исследования по машинному переводу. Сообщения ОМАИР. Вып. 2. М.: ВИНИТИ, 1961.
6. Промышленные системы машинного перевода. Обзорная информация. Сер. "Машинный перевод и автоматизация информационных процессов". Вып. 17. Вып. 20. М.: ВЦП, 1979, 1991.
7. Эволюционная эпистемология и логика социальных наук. Карл Поппер и его критики. М.: Едиториэл УРСС, 2000.
8. Абрамова Н.Н., Бевзенко Е.А., Зеленков Ю.Г. Алгоритм нормализации именных словосочетаний. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1985. - № 53.
9. Абрамова Н.Н., Белоногое Г.Г., Глобус Е.И., Кузнецов Б.А., Поздняк М.В. Ядерный машинный политематический словарь ключевых слов и словосочетаний по естественным и техническим наукам. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1989. - № 58.
10. Ю.Абрамова Н.Н., Бевзенко Е.А., Белоногое Г.Г и др. Автоматическое индексирование документов ключевыми словами и словосочетаниями. // Научно-техническая информация. Сер. 2. 1989. - № 4.
11. М.Апресян Ю.Д. Идеи и методы современной структурной лингвистики (краткий очерк). М.: Просвещение, 1966.
12. Апресян Ю.Д. Лексическая семантика и синонимические средства языка. М.: Наука, 1974.13 .Апресян Ю.Д. и др. Лингвистическое обеспечение системы автоматического перевода ЭТАП-2. М.: Наука, 1989.
13. Апресян Ю.Д. и др. Лингвистическое обеспечение системы французско-русского автоматического перевода ЭТАП-1. II. Французская морфология. Французский комбинаторный словарь. // Препр. Ин-та рус. яз. АН СССР, №154, 1984.
14. Белоногое Г.Г. О некоторых статистических закономерностях в русской письменной речи. // Вопросы языкознания. 1962. - № 1.
15. Белоногое Г.Г Числовое кодирование понятий. Энциклопедия "Автоматизация производства и промышленная электроника". Т. 4. М.: 1964.
16. Белоногое Г.Г. Об использовании терминологических словосочетаний в автоматизированных ИПС. Сб. "Цифровая вычислительная техника и программирование". М.: Сов. радио, № 2, 1966.
17. Белоногое Г.Г. Автоматический тезаурус дескрипторных понятий. // Научно-техническая информация. Сер. 2. 1973. - № 12.
18. Белоногое Г.Г., Новоселов А.П., Рыбаков Б.П. Шемакин Ю.И. Автоматическое индексирование документов и запросов. // Научно-техническая информация. Сер. 1. 1973. - № 7.
19. Белоногое Г.Г., Богатырев В.И. Автоматизированные информационные системы. М.: Сов. радио, 1973.
20. Белоногое Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации. // Проблемы кибернетики. 1974. - № 28.
21. Белоногое Г.Г., Загика Е.А., Калинин Ю.П., Хорошилов А. А. Автоматизация лингвистической обработки словарей. // Научно-техническая информация. Сер. 2. 1983. - № 11.
22. Белоногое Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983.
23. Белоногое Г.Г., Кузнецов Б.А., Новоселов А.П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты. / Под. ред. проф. В.И. Горьковой. // Итоги науки и техники. Серия "Информатика". Том. 8. М.: ВИНИТИ, 1984.
24. Белоногое Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. Метод аналогии в компьютерной лингвистике. // Научно-техническая информация. Сер. 2. 2000. - № 1.
25. Белоногое Г.Г., Гиляревский Р.С., Козачук М.В., Новоселов А.П., Хорошилов А.А.,. Автоматическая классификация текстов. // Научно-техническая информация. Сер. 2. 2001. - № 1.
26. Белоногое Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М.В., Рыжова Е.Ю., Гусъкова Л.Ю., Каким быть машинному переводу в XXI веке. // Перевод: традиции и современные технологии. М.: ВЦП, 2002.
27. Белоногое Г.Г., Быстрое И.И., Козачук М.В. Новоселов А.П., Хорошилов А.А Автоматический концептуальный анализ текстов. // Научно-техническая информация. Сер. 2. 2002. - № 10.
28. Белоногое Г.Г., Калинин Ю.П., Хорошилов А. А. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации. М.: Русский мир, 2004.
29. Белоногое Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Единицы языка и речи в системах автоматической обработки текстовой информации. // Научно-техническая информация. Сер. 2. 2005. - № 11.
30. Виноград Т. Программа, понимающая естественный язык. М.: Мир, 1976.
31. Гумбольдт Вильгельм фон. О различии строения человеческих языков и его влиянии на духовное развитие человечества. Избранные труды по языкознанию./ Пер. с нем. Г.В. Рамишвили. М.: Прогресс, 1984.
32. Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов. // Научно-техническая информация. Сер. 2. 2005. - № 6.
33. Жуков Д.А. Мы переводчики. - М.: Знание, 1975.
34. Звегинцев В.А. История языкознания XIX-XX веков в очерках и извлечениях. В 2-х частях. М.: Просвещение, 1964-65.
35. Звегинцев В. А. Предложение и его отношение к языку и речи. М.: Издательство Московского университета, 1976.
36. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.
37. Кулагина О.С. Морфологический анализ русских глаголов. // Препринт ИПМ им. М.В. Келдыша, АН СССР, № 195, 1985.
38. Кулагина О.С. Морфологический анализ русских именных форм. // Препринт ИПМ им. М.В. Келдыша, АН СССР, № 10,1986.51 .Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов.//Препринт ИПМ им. М.В. Келдыша, АН СССР, №205,1987.
39. Кулагина О.С., Мельчук И.А. Машинный перевод с французского языка на русский. // Вопросы языкознания. 1956. - № 5.
40. ЛайонзДж. Введение в теоретическую лингвистику. М.: Прогресс, 1975.
41. Лубенская С.И. Русско-английский фразеологический словарь. М.: Языки русской культуры, 1997.
42. Лурия А.Р. Язык и сознание. Ростов на Дону: Феникс, 1998.
43. Максименко С.Д. Общая психология. М.: Рефл-бук, 2000.
44. Марчук Ю.Н., Тихомиров Б.Д., Щербинин В.И. Система машинного перевода с английского языка на русский. // Машинный перевод и автоматизация информационных процессов. М.: 1975.
45. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука, 1983.
46. Мельчук И.А. Морфологический анализ при машинном переводе (преимущественно на материале русского языка). // Проблемы кибернетики. Вып. 6. М.: Физматгиз, 1961.
47. Мельчук И.А. Опыт теории лингвистических моделей "Смысл <=> текст". -М.: Наука, 1974.
48. Новоселов А.П., Хорошилов А.А. Алгоритм автоматической нормализации слов. // Вопросы информационной теории и практики. -М.: ВИНИТИ, 1985.-№53.
49. Панов Д.Ю., Ляпунов А.А., Мухин И.С. Автоматизация перевода с одного языка на другой. Сессия по научным проблемам автоматизации производства. М.: Издательство АН СССР, 1956.
50. Панов ДЮ. Автоматический перевод. М.: Издательство АН СССР, 1956.
51. Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). Санкт-Петербург: Издательство РГПУ им. А.И. Герцена, 1999.
52. Пиотровский Р.Г. Новые горизонты машинного перевода. // Научно-техническая информация. Сер. 2. 2002. - № 1.
53. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. -М.: Высшая школа, 1977.
54. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: Наука, 1979.
55. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982.
56. Поспелов Г.С. Искусственный интеллект. Новая информационная технология. М.: Наука, 1986.
57. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 1. // НТИ. Сер. 2.-1998. № 1.
58. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 2. Логическая интерпретация понятий и их описание в концептуальном словаре. // НТИ. Сер. 2.-1999. -№5.
59. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 3. Методы формирования и ведения словаря. // НТИ. Сер. 2.- 2000. № 7.
60. Сиокум Дж. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития. // Новое в зарубежной лингвистике. М.: Прогресс, 1989.
61. Соссюр Фердинанд де. Курс общей лингвистики // Труды по языкознанию -М.: Прогресс, 1977.
62. Толгская Е.Р., Хорошилов А.А., Белоногое Г.Г. Опыт внедрения программного комплекса "Переводчик" в налоговые органы России. // Научно-техническая информация. Сер. 2. 2005. - № 2.
63. Убин И.И. Автоматический переводной словарь. Принципы построения. -М.: ВЦП, 1989.
64. Убин И.И. ЭВМ и словарь. М.: ВЦП, 1992.
65. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. // Перевод в современном мире. М.: ВЦП, 2001.
66. Успенский В А., Семенов A.JI. Теория алгоритмов: основные открытия и приложения. М.,: Наука, 1987.
67. Хорошилов А.А. Архитектура систем фразеологического машинного перевода. // Научно-техническая информация. Сер. 2. 2006. - № 5.
68. Черный А И. Введение в теорию информационного поиска. М.: Наука, 1975.
69. Черный А И. Всероссийский институт научной и технической информации: 50 лет служения науке. М.: ВИНИТИ, 2005.
70. Шемакин Ю. И, Романов А. А. Компьютерная семантика. М.: Научно-образовательный центр "Школа Китайгородской", 1995.
71. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980.
72. Якушин Б.В. Слово, Понятие, Информация. М.: Молодая гвардия, 1975.
73. World summit on the information society. Declaration of Principles. Building the Information Society: a global challenge in the new Millennium. Document WSIS-03/GENEVA/DOC/4-E. 12 December 2003.
74. World summit on the information society. Plan of Action. Document WSIS-03/ GENEVA/DOC/5-E. 12 December 2003.
75. Machine translation of languages. Edited by W. Locke &Booth, 1955.
76. Bar-Hillel Y. Can translation be mechanized? // American scientist. 1954, 42. - № 2.91 .Booth A. Calculating machines and mechanical translation. // Discovery. -1954, 15.-№7.
77. Elliston J.S.G. Computer-aided translation: a business viewpoint. In Barbara M. Shell (ed.) Translating and the Computer. Amsterdam: North-Holland, 1979.
78. Somers Harold L. Current Research in Machine Translation. // The Third International Conference on Theoretical and Methodological Issues in Machine Translation of Natural Language, 11-13 June 1990. Austin, Tex.
79. Hutchins W.J. Machine translation: Past, present, future. Chichester: Ellis Horwood, 1988.
80. Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle, in Artificial and Human Intelligence, ed. A. Elithorn and R. Banerji. North Holland, 1984.
81. Nirenburg Sergei (ed.) Machine Translation: Theoretical and methodological issues. Cambridge : Cambridge University Press, 1987.
82. Oettinger A. Automatic Language Translation. Harward Monographs in Applied Science. Massachusetts, 1960.
83. Slocum Jonathan. A survey of Machine Translation: its history, current status, and future prospects. // Computational linguistics. 1985. - 11.
84. SchankR.C., Lebowitz M., Birnbaum L. An integrated understander. // Amer. J. Comput. Ling. 1980,6. - № 1.
85. Vauquois Bernard, Christian Borret. Automated translation at Grenoble University. // Computational Linguistics -1985. -№11 .
86. Webb Lynn E. Advantages and Disadvantages of Translation Memory: a Cost/Benefit Analysis. San Francisco State University, 1992.
87. Wettler M. Semantisches Langezeit-gedaechtnis und das Verstehen von Sprache. Working Papers, Fondatione Dalle Moll, 1979.
-
Похожие работы
- Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации
- Концептуальный анализ текстов в системах автоматической обработки научно-технической информации
- Модели и технологии поверхностного понимания текста
- Семантические словари в автоматической обработке текста
- Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность