автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Лингвистическое и программное обеспечение автоматической генерации структурного графа по русскоязычному названию органического соединения

кандидата технических наук
Григорян, Лев Арменович
город
Москва
год
2015
специальность ВАК РФ
05.25.05
Автореферат по документальной информации на тему «Лингвистическое и программное обеспечение автоматической генерации структурного графа по русскоязычному названию органического соединения»

Автореферат диссертации по теме "Лингвистическое и программное обеспечение автоматической генерации структурного графа по русскоязычному названию органического соединения"

На правах рукописи

Григорян Лев Арменович

ЛИНГВИСТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ АВТОМАТИЧЕСКОЙ ГЕНЕРАЦИИ СТРУКТУРНОГО ГРАФА ПО РУССКОЯЗЫЧНОМУ НАЗВАНИЮ ОРГАНИЧЕСКОГО СО ЕДИНЕНИЯ

Специальность 05.25.05 «Информационные системы и процессы»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 9 ДБг т

005561524

Москва-2015

005561524

Работа выполнена в Отделе программного обеспечения и сопровождения информационных систем по химии Всероссийского института научной и технической информации Российской академии наук (ВИНИТИ РАН) и на кафедре аналитической химии Российского химико-технологического университета им. Д. И. Менделеева.

Научный руководитель: доктор химических наук, доцент,

профессор кафедры аналитической химии Российского химико-технологического университета им. Д. И. Менделеева Винокуров Евгений Геннадьевич Научный консультант: доктор химических наук, профессор, главный научный сотрудник Всероссийского института научной и технической информации Российской академии наук Бондарь Владимир Владимирович

Официальные оппоненты: доктор технических наук, профессор кафедры

«Компьютерно-интегрированные системы в машиностроении» ФГБОУ ВПО «Тамбовский государственный технический университет»

Немтинов Владимир Алексеевич

кандидат техшнеских наук, доцент кафедры информационных технологий ФГБУН «Институт металлургии и материаловедения им. A.A. Байкова Российской академии наук» Дударев Виктор Анатольевич

Ведущая организация: ФГБОУ ВПО «Московский государственный университет тонких химических технологий имени М. В. Ломоносова

Защита состоится « 1 » октября 2015 года в _ часов на заседании

диссертациошюго совета Д 002.026.01 при Всероссийском институте научной и технической информации РАН по адресу: 125190, г. Москва, ул. Усиевича, д. 20.

С диссертацией можно ознакомиться в библиотеке ВИНИТИ РАН.

Автореферат разослан «_»

Ученый секретарь диссертациошюго совета

2015 года.

?

/Ь' • !.,..., Каменская М.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования

При создании баз структурных данных по химии серьезную проблему представляет построение структурных формул химических соединений по их систематическим названиям. Автоматизация этой задачи, во-первых, облегчит пользование документальными базами по химии, сделав содержащиеся в них сведения более полными, наглядными и, соответственно, более корректными; во-вторых, приведет к существенному снижению трудозатрат при обработке первоисточников, так как авторы обычно приводят лишь незначительный процент структурных формул. Очевидно, что потребность в программе построения структурного графа по названию химического соедипешм еще более насущна при работе с публикациями в смежных областях знаний, где структурные формулы химических соединений традиционно вообще не приводятся: экологии, фармакологии, различных разделах биологии и т.д.

Важно отметить также, что построение структурных графов химических соединений, осуществляющееся в научных институтах России до настоящего времени при помощи графических редакторов (а иногда и рукописным образом), требует специализированных знаний в области номенклатуры и отнимает значительное время у квалифицированных научных работников. Более того, подобная устаревшая методика далеко не всегда отвечает современным стандартам оформления научных журналов, патентов изобретений, подготовки реферативных журналов, баз данных и т.п., поскольку чревата допущением ошибок и неточностей, неизбежных при использовании т.н. «человеческого фактора», а также препятствует качественной оцифровке информащга с традиционных «бумажных» носителей. Так, например, электронные версии некоторых научных журналов вынуждены сокращать до минимума или даже отказываться от публикации рисунков структур химических соединений, которые приведены в оригиналах соответствующих статей.

Зарубежные программные разработки в рамках данной предметной области (в частности, номенклатор СЬетИгаш и программа АСО/Иате), несмотря на ряд своих достоинств, для российских пользователей не удобны, так как в этих программах, как правило, не поддерживается русскоязычная химическая номенклатура. Поэтому появление программного комплекса, ориентированного прежде всего на русскоязычную химическую номенклатуру, можно рассматривать и как определенный шаг на пути сохранения русского языка в качестве одного из мировых языков науки. Данный подход вписывается в наметившуюся в российской науке динамику последних лет по преодолешпо негативной тенденции 1980-1990-х гг., когда доля научных публикаций по химии на русском языке в мировом потоке научной литературы сократилась с 20-25% до 2-3%.

Цель работы: разработка лингвистического обеспечения в области химической номенклатуры и создание на этой основе программно-технологического комплекса для генерации структурного графа по русскоязычному названию органического соединения.

Задачи диссертационного исследования:

1. Анализ существующих программных средств порождения структурного графа по названию химического соединения, оценка их возможностей.

2. Выявление специфики систематической номенклатуры названий химических соединений на примере ряда важнейших классов органических соед1тений (в т.ч. алифатических

соединений: моноциклических соединений; соединений с функциональными группами, называемых по заместительной номенклатуре; соединений, называемых по заме1гательной номенклатуре; соединений, называемых но расширенной системе Ганча-Видмана; ряда гетероциклических и ароматических соединений; некоторых соединений, сохраняющих тривиальные наименования).

3. Лингвистический анализ выбранной предметной области и построение ее лингвистической модели, в т.ч. разработка новейшей классификации химических морфем и создание укорачивающей грамматики для свертки названий химических соединений в соответствующие им структурные графы.

4. Создание специализированных словарей химических морфем.

5. Разработка собственных программных средств для построения структурного графа по названию химического соединения (в рамках выбранной предметной области).

6. Разработка методов, алгоритмов и программ автоматического перевода названий химических соединений с русского на английский и с английского на русский язык.

7. Интеграция разработанных программных средств в единый программно-технологический комплекс «Номенклатурный Генератор».

Научная повизна работы:

1. Впервые предложена двуступенчатая классификация лингвистических единиц химической номенклатуры (морфем).

2. Впервые реализована модель свертки названия органического соединения в структурный граф посредством применения системы контекстных правил укорачивающей грамматики.

3. Впервые создан интегрированный программно-технологический комплекс модульного типа для работы с русскоязычной химической номенклатурой, ориентированный на перевод названия органического соединения в его структурный граф.

4. Впервые реализована модель автоматического переводчика систематических, полусистематических и ряда тривиальных названий химических соединений с русского на английский язык и с английского на русский язык.

Теоретическим основанием исследования являются труды известных специалистов в области химии и химической технологии, а также исследователей проблем, связанных с применением методов искусственного интеллекта в химии и с разработкой способов представления химической информации. Это прежде всего работы А. М. Цукермана, Г. Э. Влэдуца, В. А. Коптюга, Г. Б. Бокия и Н. А. Голубковой, Р. С. Кана и О. С. Дермера, Р. С. Гиляревского, А. И. Черного, В. В. Кафарова, М. М. Ланглебен, В. К. Финна и Э. А. Давыдовой.

Практическая значимость работы:

1. Предполагается использование разработанных программных средств оперативной генерации структурных графов по названиям химических соединений при создании и пополнении специализированных баз данных по химии и фармакологии.

2. Предполагается внедрение в ВИНИТИ РАН разработанных программных средств автоматического перевода русскоязычного названия химического соединения на английский язык и англоязычного - на русский язык.

3. Программно-технологический комплекс «Номенклатурный Генератор); обеспечивает возможность адаптации англоязычных баз данных по химии к нуждам российских пользователей, а также возможность использования потенциала зарубежных программных средств для порождения структурных графов по русскоязычным названиям химических соединений.

4. Предлагаемая в данном исследовании новейшая классификация химических морфем и созданные на се основе специализированные словари морфем могут быть использованы научными работниками и программистами, работающими в области лингвистического обеспечения химической номенклатуры.

Новизна, практическая значимость и реализация результатов работы подтверждены актом о внедрении (ЗАО ЦИНТЭНСИ), а также свидетельством Роспатента о государственной регистрации программы для ЭВМ№ 2014619365 от 15.09.2014 г.

Соответствие диссертации паспорту научной специальности: диссертация соответствует паспорту специальности 05.25.05 - «Информационные системы и процессы» в части п. 4 «Лингвистическое обеспечение информационных систем и процессов. Методы и средства проектирования словарей данных, словарей индексирования и поиска информации, тезаурусов и иных лексических комплексов. Методы семантического, синтаксического и прагматического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями», а также в части п. 2 «Техническое обеспечение информационных систем и процессов, в том числе новые технические средства сбора, хранен™, передачи и представления информации. Комплексы технических средств, обеспечивающих функционирование информационных систем и процессов, накопления и оптимального использования информационных ресурсов».

Объектами защиты являются:

1. Новейшая классификация лингвистических единиц химической номенклатуры (морфем) и созданная па ее основе укорачивающая грамматика для свертки названий химических соединений в соответствующие им структурные графы.

2. Принципы организации специализированных словарей морфем.

3. Методы, алгоритмы и программные средства автоматического порождения структурного графа по русскоязычному названию для ряда важнейших классов химических соединений: алифатических, моноциклических, соединений, называемых по заместительной и за-менителыюй номенклатурам, соединений, называемых по номенклатуре Ганча-Видмана, ряда гетероциклических и ароматических соединений и др.

4. Методы, алгоритмы и программные средства автоматического перевода с русского на английский и с английского на русский язык для широкого спектра названий химических соединений.

Апробация работы

1. Основные результаты работы докладывались на научных конференциях: Международная конференция «Диалог-2006: Компьютерная лингвистика и информационные технологии», 31 мая - 4 июня 2006 г.; II Международный конгресс молодых ученых по химии и химической технологии «МКХТ-2006», 23-25 октября 2006 г.; II Российско-индийский симпозиум по органической химии в рамках XVIII Менделеевского съезда но общей и прикладной химии, г. Москва, 23-28 сентября 2007 г.; НТИ-2007: 7 Международная конференция, посвя-

щенпая 55-летаю ВИНИТИ. «Информационное общество. Интеллектуальная обработка информации. Информационные технологии», г. Москва, 24-26 октября 2007 г.; VI Международная конференция РХО им. Д. И. Менделеева, посвященная 180-летию со дня рождения Д. И. Менделеева, «Химическая технология и биотехнология новых материалов и продуктов», г. Москва, 23 октября 2014 г.; X Международный конгресс молодых ученых по химии и химической технологии «иССЬТ-2014», 28-31 октября 2014 г.

2. Диссертационная работа обсуждалась на научном семинаре Отдела научной информации по проблемам химии и химической технологии ВИНИТИ РАН, а также на научном семинаре Отделения научных исследований по проблемам информатики ВИНИТИ РАН.

3. Функционирование программного комплекса прошло тестирование на пробном массиве из 40 000 названий.

4. По теме диссертации автором опубликовано 15 печатных работ, в т.ч. 5 статей, представленных в рецензируемых журналах, рекомендованных ВАК Минобрнауки для публикации результатов диссертационных работ.

Структура и объем работы

Диссертация состоит из введения, 5 глав, заключения и списка литературы. Работа изложена на 191 странице печатного текста, включая 108 рисунков, 14 таблиц, 14 приложений и 209 библиографических ссылок.

СОДЕРЖАНИЕ РАБОТЫ

Во Введении обоснована актуальность темы диссертации, определены цель и задачи исследования, оценена новизна и практическая значимость работы, сформулированы основные результаты исследования, дан ряд определений, принятых в рамках диссертациотюй работы.

Глава 1 посвящена обзору литературы. Рассмотрен феномен химической номенклатуры. Рассказано о роли и назначении химических номенклатур в современной науке. Сделан экскурс в историю разработки химических номенклатур. Проведен анализ современной химической номенклатуры как сложноорганизованной системы. Обоснована принципиальная возможность автоматического преобразования названий химических соединений, данных в систематической номенклатуре, в структурные графы, а также возможность перевода подобных названий с одного естественного языка на другой.

Рассмотрены три возможных направления решения задачи построения структурного графа по русскоязычному названию органического соединения:

1) Непосредственный перевод названия органического соединения в структурный граф. Разработка этого направления восходит к работам М. М. Ланглебен и А. М. Цукермана, где химическая номенклатура была рассмотрена как искусственный язык, допускающий четкую формализацию и обладающий развитой порождающей грамматикой. На этой теоретической базе в 2000 г. группой В. К. Финна была разработана пробная версия модуля-номенклатора, которая обрабатывала самые простые классы названий органических соединений.

2) Перевод названия химического соединения с русского на английский язык и получение по нему структурного графа посредством обращения к зарубежным программам, опери-

рующим с английским вариантом химической номенклатуры. Это направпение также имеет длительную предысторию. Подступы к машинному переводу стали одним из приоритетных научных направлений, начиная с середины XX в. Разработки в этой области оказались наиболее эффективны в хорошо структурированных подъязыках естественного языка, таких как язык юридической документации, «языки» технических наук и в т.ч. язык химической номенклатуры. На основе теоретического подхода, развитого в работах отечественных и зарубежных лингвистов, в 1980-х гг. в ВИНИТИ была разработана система автоматического перевода названий химических соединений с немецкого на русский язык и с русского на немецкий и английский языки.

3) Поиск структурного графа, соответствующего названию химического соединения, в специальном массиве. Данное направление опирается на сделанные сотрудниками ВИНИТИ наработки в области каталогизации и хранения химико-структурной информации о химических соединениях.

В Главе 2 предложена трехмодульная структура программно-технологического комплекса (ЛТК) под названием «Номенклатурный Генератор», в котором каждый модуль отвечает за реализацию одного из выбрашшх направлений решения поставленной задачи. Т.о. разрабатываемый нами ПТК должен представлять собой систему модульного типа, включающую модули номенклатор, переводчик и конкорданс (см. рис. 1):

1. Модуль-номешслатор. В настоящем диссертационном исследовании предполагается разработка контекстных правил, в совокупности составляющих т.н. грамматику свертки, что позволяет создать алгоритм модуля-номенклатора для непосредственного построения структурного графа органического соедшюния по его русскоязычному названию, вводимому пользователем.

2. Модуль-переводчик. Создание этого модуля даст возможность по русскоязычному наименованию химического соединения получить его английское название (и наоборот), что позволит ПТК вступать во взаимодействие с доступными иностранными номенклаторами (АСО/Иате, СЬетЭгаш и др.) и с их помощью получать надлежащую химическую структуру. Переводчик можно будет использовать и как самостоятельную программную разработку, ориентированную исключительно на перевод названий химических соединений с языка на язык, т.е. без порождения структурных графов этих соединений.

3. Модуль-конкорданс. Наличие этого модуля поможет частично заполнить лакуны, неохваченные при работе первых двух модулей. Под конкордансом понимается база данных (БД), разделенная на две части («имишую» и «структурную») и снабженная средствами поиска по ней. В «именной» части БД конкорданса могут храниться десятки тысяч русскоязычных названий химических соединений со ссылками на адреса ячеек памяти из «структурной» части БД. В «структурной» части должны содержаться готовые, заранее построенные структурные графы, представленные в сжатом формате и соответствующие названиям из «именной» части БД. В качестве конкорданса предполагается использовать фрагмент массива структурных данных ВИНИТИ

■■'■■ ■■.:". ~ . ..... ... . . : .1 ~ Номенклатор Перехода« | .. Кокхорв&нс

Рис. I. Структура ПТК «Номенклатурный Генератор»

размером около 40 тыс. названий индивидуалыгых химических соединений (в т. ч. тривиальных и полутривиальных) с соответствующими им структурами. В дальнейшем конкорданс будет открыт для пополнения новыми парами «название — структура)).

В качестве экспериментальной области для апробации ПТК были выбраны названия из таких классов органических соединений как: алифатические соединения; моноциклические соединения; соединения с функциональными группами, получающие названия по заместительной номенклатуре; соединения, получающие названия по «а»-номенклатуре; гетероцик-лы, получающие названия по номенклатуре Ганча-Видмана; основные ароматические соединения; ряд соединений, имеющих тривиальные названия.

В Главе 3 представлены результаты морфо-синтаксического и семантико-синтаксического анализа предметной области. Химическая номенклатура рассматривается как своего рода искусственный язык. В качестве элементарных единиц этого языка выступают химические морфемы, локанты и служебные знаки. Из них по определенным правилам складываются названия химических соединений. По своему внутреннему строению и функции названия химических соединений могут квалифицироваться как сложные слова данного искусственного языка. Способы дистрибуции единиц данного языка определяют его синтаксис, а семантика и синтаксис являются основой для выделения классов морфем. Всего насчитывается свыше тысячи различных химических морфем, имеющих систематическое значение (например, «пента», «цикло», паза», «гидрокси», «ол» и др.). Помимо этого номенклатура ШРАС признает ряд тривиальных наименований, многие из которых могут также выступать в качестве компонентов более сложных названий химических соединений. К служебным знакам относятся дефис, запятая, точка, двоеточие, апостроф, круглые, квадратные и фигурные скобки и др. Особое положение занимают локанты, т.е. числовые, буквенные и смешанные (число-буквенные) индексы, используемые при нумерации атомов в цепочке структурного графа.

Диссертационное исследование опиралось на 3 основных принципа организации химической номенклатуры:

1) морфемную членимость названий химических соединений;

2) интернациональный характер морфем;

3) соответствие морфем фрагментам химических структур и правилам химической номенклатуры.

Принцип морфемной членимости означает, что любое систематическое название химического соединения представляет собой упорядоченный набор химических морфем и, таким образом, может быть условно разделено на составляющие его морфемы, а общий смысл этого названия (т.е. структура данного химического соединения) восходит к совокупности смыслов составляющих его морфем, согласно грамматике номенклатуры. При переводе названия химического соединения с одного естественного языка на другой оптимальным подходом является именно поморфемный перевод, превосходящий по эффективности такие разновидности перевода, как, например, посимвольное преобразование (транслитерация), перевод с помощью списка однозначных соответствий (название —> название) или перевод с использованием языка-посредника.

Второй основополагающий принцип диссертационного исследования заключается в опоре на интернациональный характер морфем. Большинство существующих химических морфем строится на латинской основе, и потому, вне зависимости от того, какому естествен-

ному языку принадлежит тот или иной вариант номенклатуры, морфемы имеют в нем достаточно схожий вид (см. табл. 1).

Табл. 1. Примеры схожих по форме русских, английских и немецких химических морфем

Химические морфемы

Русские Английские Немецкие Русские Английские Немецкие

бут but but хинол quinol chino I

пента penta penta етан etane etan

циано су ano cyano винил vinyl vinyl

фосфа phospha phospha гидро hydro hydro

Родственные морфемы химической номенклатуры разных языков не только схожи по форме, но и одинаковы по химическому смыслу. Т.е., например, русская морфема «хинол», ее английский аналог «guiñol» и немецкий вариант «chino!» обозначают один и тот же фрагмент структуры химических соединений (см. рис. 2):

Рис. 2. Фрагмент структуры химического соединения, соответствующий морфеме «хинол» и ее иноязычным аналогам «quinal» и «chino!»

Т.о., проблема перевода названий химических соединений с одного естественного языка на другой заметно упрощается. Поморфемный способ перевода оказывается наиболее рациональным. Однако из общего правила схожести морфем существует ряд исключений (примеры см. в табл. 2). Преимущественно это тривиальные названия (или фрагменты названий): описывающие их морфемы одного языка не имеют фонетического и графического сходства со своими аналогами из других языков. Например, «муравьиная кислота» переводится на английский язык как «formic acid», «коричный альдегид» - как «cinnamic aldehyde» и т.п. При переводе таких, несхожих названий химических соединений наиболее эффективным оказывается модуль-конкорданс, который можно рассматривать в т.ч. как своеобразный коллектор исключений из правил систематической номенклатуры.

Табл. 2. Примеры несхожих по форме русских, английских и немецких химических морфем

Химические морфемы

Русские Английские Немецкие Русские Английские Немецкие

уксусный acetic essig втор- sec- sek-

щавелевый oxalic oxal спирт alcohol alkohol

бензол benzene benzen угольный carbonic kohlen

симм- s- symm- янтарный succinic bemstein

Третий базовый принцип, на котором строится данное исследование, представляет собой прямое следствие из главного принципа современной международной химической номенклатуры, согласно которому названия химических соединений должны максимально от-

ражать их строение (структуру). Соответственно, морфемы, являющиеся своего рода алфавитом номенклату ры, приняли на себя функции:

1) обозначения наиболее распространенных фрагментов структурных цепочек, встречающихся в графах химических соединений;

2) указания о модификациях внутри этих цепочек;

3) указания о сочетаниях этих цепочек.

Первую, номинативную, функцию выполняют т.н. морфемы-сущности (морфемы-операнды). Функции указателей соответствуют т.н. морфемам-операциям.

Названия химических соединений обычно представляют собой сложные комбинации морфем-сущностей и морфем-операций, связи между которыми регулируются редуцированными, служебными морфемами - знаками пунктуации. Этой сложной структуре означающего соответствует структура графа, на которой отображаются химические элементы и связи между ними. Т.о., морфемы химической номенклатуры напрямую соответствуют фрагментам цепи (в т.ч. и отдельным атомам) либо правилам номенклатуры, оговаривающим необходимые изменения в этих фрагментах или способы их сочленения в единую структуру. Например, морфема «бут» обозначает углеродную цепь из последовательно соединенных 4-х атомов (см. рис. За).

Морфема «ен» показывает, что кратность одной из связей в углеродной цепи равна 2 (стандартной принято считать кратность, равную 1; если все связи в углеродной цепи имеют стандартную кратность, то в названии соединения используется морфема «а«»). Чтобы уточнить, какая именно связь в графе должна получить нестандартную кратность, может быть добавлена морфема-локант (в окружении служебных субморфов-дефисов) (см. рис. 36). Распространенная в химической номенклатуре морфема щикло» указывает, что структурная цепь химического соединения замкнута (см. рис. Зв).

Рис. Зв.

Рис. 3. Графы соединений, соответствующих морфеме «бут» (а) и ее производным — соединениям «Бутан», «Бутен», «Бут-2-ен» (б) и «Циклобутен» (в)

Т.о., в структуре названия химического соединения действуют функционально различные морфемы, что позволяет создать их функциональную классификацию. Разработка такой классификации, в свою очередь, дает возможность формализовать определенную грамматику, служащую для преобразования названия химического соединения в его структурный граф.

Нами была разработана функциональная семантико-синтаксическая классификация химических морфем, заключающаяся в распределении всех морфем по двум основным классам —

8

словарных и служебных морфем, — а внутри классов — по функциональным синтаксическим типам в зависимости от их роли при построении названий химических соединений (см. табл. 3). К словарным типам морфем были причислены все те компоненты названий химических соединений, которые традиционно признаны в качестве морфем химической номенклатурой, а также тривиальные компоненты названий и локанты. К служебным типам морфем были отнесены вспомогательные знаки, встречающиеся в названиях химическгос соединений: запятая, дефис, точка и т.д.

Табл. 3. Классификация химических морфем

Синтаксический тип Класс Семантическая роль (химико-номенклатурный смысл)

Root (Корень) Словарный (СС1) Структурная цепочка или ее фрагмент

Suffix (Суффикс) Словарный (СС) Кратность связи;главная функциональная группа; модификации структурной цепочки или связей

Prefix (Префикс) Словарный (СС) Функциональная группа; модификации структурной цепочки и др.

Multi (Количественная приставка) Словарный (СС) Кратность повторяющихся фрагментов структурной цепочки, модификаторов связи и др.

Hetero (Гетеро-префикс) Словарный (СС) Гетероатом внутри структурной цепочки

Hydro (Префикс гидрирования) Словарный (СС) Гидрирование атомов структурной цепочки

PeriodicSymbol (Символ периодической системы) Словарный (СС) Атом в производных соединениях неорганической химии и природных соединениях

Unspec (Неспецифический компонент) Словарный (СС) Переводной компонент названия с неуточненной химико-структурной функцией

Locant (Покант) Словарный (СС) Указатель модифицируемой вершины структурного графа, стыковой вершины, грани и др.

Comma (Запятая) Служебный (МС2) Разделитель между локантами внутри комплекса, между основной и инвертированной частью названия и др.

Hyphen (Дефис) Служебный (МС) Разделитель, обособляющий комплексы локантов, слабостыкующиеся морфемы и др., показатель отрицательного заряда

Point(Точка) Служебный (МС) Разделитель между локантами в мостиковых соединениях и др.

OpenBracket (Открывающая скобка) Служебный (МС) Показатель левой границы сложного комплекса морфем в иерархических структурах

CloseBracket (Закрывающая скобка) Служебный (МС) Показатель правой границы сложного комплекса морфем в иерархических структурах

Asterisk (Астериск) Служебный (МС) Модификатор стереохимического префикса

Apostrophe (Штрих) Служебный (МС) Модификатор локанта

Colon (Двоеточие) Служебный (МС) Разделитель сложных групп локантов, показатель соотношения мер и др.

Plus (Плюс) Служебный (МС) Показатель положительного заряда

1 СС — семантика-синтаксический кчасс морфем.

2 МС — морфо-синтаксическии класс морфем.

В химической номенклатуре подобные элементы названий морфемами считать не принято, однако при алгоритмическом подходе к задаче перевода химических наименований в структурные графы принципиальной разницы между служебными знаками и общепризнанными хи-

мическими морфемами нет. Служебные знаки, как и морфемы словарных типов, обладают в рамках химической номенклатуры фиксированным значением. Алгоритм проводит посимвольный анализ названия химического соединения и членит его на осмысленные составные части вне зависимости от того, является ли очередной обрабатываемый символ буквой, цифрой или знаком пунктуации. Это позволяет нам признать служебные знаки упрощенными разновидностями морфем (субморфами) и включить их в классификацию морфем в качестве отдельного класса.

Фактически, словарные и служебные морфемы разделяются по функции - как основные, задающие своего рода профиль химического соединения, и вспомогательные, регулирующие отношения между основными внутри названия. Отсюда явствует характер обоих классов морфем: словарный класс является семантико-синтаксическим, а служебный - мор-фо-синтаксическим. Противопоставление между словарными и служебными типами морфем характеризуется также по признаку множественности vs единичности представителей каждого типа. Каждый из словарных типов морфем насчитывает целый ряд конкретных морфем-представителей (к примеру, типу Hetero принадлежат около 30 морфем, в т.ч. «окса», «аза», «тиа» и др.), в то время как любой служебный тип состоит из единственной морфемы.

Проведенный нами анализ химической номенклатуры выявил, что названия химических соединений, подлежащие обработке «Номенклатурным Генератором», имеют следующую синтаксическую структуру. Ядром названия всего соединения, как правило, является т.н. корневая морфема, соответствующая главной цепи соединения. В названии могут одновременно присутствовать несколько корневых морфем, находящихся между собой в иерархических отношениях; чтобы установить, какая из них является главной, необходимо придерживаться определенных правил. Левее ядра располагается префиксальная часть, правее - суффиксальная. (Нередки также случаи, когда либо префиксальная часть, либо суффиксальная, либо они обе - в названии отсутствуют; к примеру, тривиальное название «Фуран» состоит исключительно из ядра.) Как префиксальная, так и суффиксальная части могут состоять как из одной морфемы, так и из одного или нескольких морфемных комплексов, включающих морфемы разных типов. Например, в названии «Циклопентаи» ядром является корневая морфема «пент», префиксальная часть состоит из единственной морфемы «цикла», а суффиксальная часть — также из .единственной морфемы «он». Более сложный пример представляет собой название «4-(3-Гидроксипропинил)окта-2,5-диен-1,8-диол». Оно складывается из ядра «окта», префиксальной части «4-(3-Гидроксипропинил)» и суффиксальной части «-2,5-диен-1,8-диол». При этом морфемный комплекс, образующий префиксальную часть названия, в свою очередь имеет сложную структуру второго порядка, ядром которой служит корневая морфема «проп». Суффиксальная часть всего названия складывается из двух морфемных комплексов «-2,5-диен» и «-1,8-диол». Как видно из последнего примера, название химического соединения, несмотря на строковую форму записи, в общем случае имеет нелинейную внутреннюю структуру, т.е. допускает существование элементов и комплексов различных уровней, подчиняющихся определенной иерархии. Т.о., процедура анализа названия химического соединения вскрывает его глубинно-синтаксическую структуру.

Итак, в основе названия химического соединения чаще всего лежит т.н. корневая морфема. В кодировке ПТК ее типу присвоено имя Root. «Корневой» тип Root включает морфею

мы, обозначающие углеродные цепочки атомов: «мет», «эот», «проп», «бут», «пент» и т.д. Также к этому типу отнесены морфемы, соответствующие тривиальным названиям (и компонентам названий) органических соединений: «этилен», «глицерин», «ацетон» и т.п. Морфемы корневого типа служат для описания базисного каркаса молекулы химического соединения.

Если вещество отличается от базисного, например, кратностью связей или особыми присоединенными элементами, то к корневой морфеме слева или справа добавляются функциональные морфемы типа Prefix или Suffix соответственно. Они, вместе с прилегающими к ним локантами и служебными морфемами (дефисами, запятыми, скобками и т.п.), указывают, что именно надо изменить в базисной структуре, чтобы получить правильный молекулярный граф рассматриваемого вещества.

К типу Suffix относятся прежде всего морфемы, обозначающие кратность связи между атомами в структурной цепочке: «он», «ен», «ин» (отвечающие соответственно за одинарную, двойную и тройную связь). Кроме того, типу Suffix принадлежат и морфемы, указывающие, что данная структурная цепочка является радикалом: «ил», «илиден» и т.п., а также морфемы, используемые для обозначения старшей функциональной группы.

Типу Prefix принадлежат морфемы, обозначающие некоторые операции над графом. Среди них — морфема «циклон, которой соответствует операция замыкания основной цепочки графа, т.е. соединения связью первого и последнего атома основной цепочки. К этому же типу относятся морфемы, обозначающие большинство функциональных групп.

Тип Multi объединяет морфемы, играющие в названии соединения роль умножающих приставок: «ди», «три», «тетра», «пентал и т.д., а также «бис», «трис», «тетракис» и т.д. Морфемы этого типа часто принимают участие в образовании морфемных комплексов — как префиксальных, так и суффиксальных.

Тип Hetero включает морфемы, обозначающие наличие гетероатомов в структурном графе химического соединения: «окса», «аза», «mua» и др., а также их укороченные версии, используемые в расширенной системе Ганча-Видмана: «оке», «аз», «ти» и т.д.

Типу Hydro принадлежат морфемы, ответственные за гидрирование химического соединения: «гидро», «дегидро», «пергидро», «//». Из таких морфем складываются т.н. гидропрефиксы, например «6,11-дигидро-5Н-», указывающие на присутствие дополнительных атомов водорода в отмеченных соответствующими локантами вершинах графа ненасыщенного соединения.

Тип FeriodicSymbol предназначен для морфем, взятых напрямую из периодической системы химических элементов (таблицы Д. И. Менделеева). Это морфемы «Na», «К», «A/g», «Al» и др. Они встречаются в названиях соединений, находящихся на стыке между органической и неорганической химией, таких как, например, «Дитиомуравьиная кислота, Na-соль». Названия таких соединений не входят в предметную область модуля-номенклатора, но могут быть доступны для обработки модулем-переводчиком.

Тип морфем Unspec был введен специально для обеспечения работы модуля-переводчика. Поскольку модуль-переводчик в составе программного комплекса является автономной единицей, множество используемых им морфем (т.е. тех морфем, для которых определена операция перевода) может не совпадать с множеством морфем, которыми оперирует модуль-номенклатор. Если сфера действия номенклатора в настоящий момент ограничена

экспериментальным набором классов названий органических веществ, то сфера действия переводчика значительно шире - он воспринимает целый ряд дополнительных морфем из тех областей химической номенклатуры, которые пока еще не охвачены номенклатором.

Типу Locant принадлежат морфемы-локанты. Формально различаются следующие разновидности локантов: числовые (например, «/», «2», «J» и т.д.), буквенные-латинские (простые «о», «6», «с» и т.д., а также сложные «аб», «¿c», «cde» и т.п.), буквенные-греческие («а», «/?», «у» и т.д.) и смешанные, т.е. число-буквенные («io», «4а», «Pi» и т.п.). Поскольку набор локантов в химической номенклатуре принципиальным образом не ограничен, в словари программы были внесены только односимвольные греческие локанты, а числовые и смешанные локанты алгоритм обрабатывал процедурными средствами по аналогии, без обращения к словарям.

Служебные типы морфем насчитывают лишь по одной морфеме-представителю. Так, например, тип Hyphen (дефис) состоит из единственной морфемы «-», а тип Point (точка) - из морфемы «.» и т.п.

Итак, название химического соединения состоит из химических морфем, каждая из которых принадлежит тому или иному типу. Таким образом, за каждым конкретным названием химического соединения фактически стоит некий обобщенный шаблон, состоящий из линейной последовательности типов морфем, образующих данное название. Например, название «б-Окса-2,4-дитиагептан-1,7-диол» складывается из морфем «б», «-», «окса», «-», «2», «,», «4», «-», «он», «тиа», «гепт», «он», «-», «7», «,», «7», «-», «<)«», «ол». Эти морфемы принадлежат следующим типам:

6—Locant;--Hyphen; окса — Hetcro;--Hyphen; 2 — Locant;, —Comma; 4 — Locant;

--Hyphen; du— Multi; mua — Hetero; гепт— Root; an — Suffix;--Hyphen; 1 —

Locant;, —Comma; 7—Locant;--Hyphen;du— Multi; ол — Suffix.

Соответственно, шаблоном для исходного названия «6-Окса-2,4-дитиагептан-1,7-диол» является последовательность {Locant, Hyphen, Hetero, Hyphen, Locant, Comma, Locant, Hyphen, Multi, Hetero, Root, Suffix, Hyphen, Locant, Comma, Locant, Hyphen, Multi, Suffix}.

Точно такой же шаблон будет, например, у названия «4-Окса-2,6-дитиагептан-1,7-диол» (отличающегося от предыдущего примера только набором локантов), у названия «5-Окса-2,7-диазанонан-1,9-диоп» (где помимо разницы в локантах имеются также отличия в морфемах типа Hetero и Root) и у множества других названий химических соединений.

Введение подобных шаблонов позволяет осуществлять свертку различных названий химических соединешт в структурные графы по единым правилам. Такие правила, называемые контекстными, опираются на принципы устройства химической номенклатуры. В нашей работе используются правила для тех классов химических соединений, названия которых составляют предметную область ПТК.

Контекстные правила свертки сформулированы нами для преобразований определенных последовательностей типов морфем и встроены в алгоритм программы. Шаблоны названий химических соединений, к которым применяются контекстные правила, в программном представлении организуются в виде т.н. метастроки, состоящей из метасимволов. Метасимвол является показателем типа морфемы, но кроме того имеет отсылку к самой морфеме и содержит набор полей для хранения химико-структурных данных, относящихся к морфеме. Эти

12

данные для морфем словарных типов (кроме некоторых видов локантов) считываются из основного словаря программы.

Совокупность всех контекстных правил образует укорачивающую грамматику (грамматику свертки).

Контекстные правила, используемые в нашей работе, подразделяются на несколько

групп.

Первая группа содержит общие правила; вторая отвечает за свертку метасимволов Suffix; третья — за свертку метасимволов Prefix; четвертая — сворачивает метасимволы Hetero; пятая — отвечает за свертку метасимволов Hydro; шестая предназначена для обработки метасимволов OpenBrackct и CIoseBracket; седьмая отвечает за соединение графов, фрагменты которых аккумулируются в метасимволах Root.

Ряд правил предусматривает обращение к специальным программным функциям Ш К, которые вносят изменения в строящийся граф химического соединения. Это означает, что контекстные правила воздействуют не только на метастроку, преобразуя последовательность составляющих ее метасимволов, но параллельно с этим осуществляют определенные операции над создающимся графом структуры соединения. К числу наиболее употребимых операций относятся:

• соединение двух структурных цепочек в заданной стыковой вершине;

• изменение кратности связи между заданными вершинами структурной цепочки;

• замена указанной вершины структурной цепочки на заданный атом;

• изменение показателя валентности атома в заданной вершине структурной цепочки. Грамматика устроена таким образом, что последовательное применение ее правил

должно привести к тому, что любая правильно построенная последовательность морфем (в рамках нашей предметной области) будет свернута в единый граф.

В качестве примера приведем группу контекстных правил грамматики G, обеспечивающих свертку метасимволов Prefix:

G3. Правила, ответственные за свертку метасимволов Prefix:

G3R1. Развертка кратного префикса с уменьшением умножающей приставки на один ранг:

Locant, Comma LocantHyphen Muí ti „ Prefix „ -> Locant, Hyphen Multi' „ Pref ix „ Hyphen Locant í+í Hyphen Prefix „■

где Muí ti" n = Multim - 1, a Prefix,,- = Prefix,,

G3R2. Коррекция /-го графа сообразно химическому смыслу прилегающего к данному графу слева к-то метасимвола Prefix с учетом j-го локанта: Locanty Hyphen Prefixt Root, -> Root',

При этом данный метасимвол Prefix удаляется из метастроки вместе с прилегающим локантом и дефисом.

G3R3. Коррекция /-го графа сообразно химическому смыслу прилегающего к данному графу слева к-то метасимвола Prefix: Prefixt Root, -> Root",

При этом данный метасимвол Prefix удаляется из метастроки.

G3R4. Устранение лишнего дефиса в позиции между префиксом и графом: Prefixк Hyphen Root, -> Prefixt Root,

Алгоритм ПТК осуществляет просмотр (парсирование) метастроки слева направо и преобразует ее посредством применения к ней данных правил. Правила применяются с соблюдением очередности, в которой они перечислены в грамматике G. После применения любого правила алгоритм предписывает возврат к началу списка правил. Эта операция повторяется циклически до тех пор, пока к метастроке можно применить хотя бы одно из правил.

Отметим, что нам удалось сформулировать компактный рекуррентный вариант контекстных правил для избавления от умножающих приставок. Это избавило грамматику от бесконечных последовательностей («гнезд») однотипных правил свертки умножающих приставок различных рангов.

Разработанная нами классификация химических морфем предполагала составление специализированных морфемных словарей, содержащих химико-структурную и прочую информацию о морфемах, необходимую для работы алгоритма «Номенклатурного Генератора». Нами были составлены и интегрированы в ПТК 3 словаря химических морфем - основной словарь, словарь перевода и словарь синонимичных замен.

Основной словарь химических морфем содержит около 1100 статей. Каждая статья словаря описывает отдельную химическую морфему. Помимо русского названия морфемы в статье указывается также тип морфемы и связанная с ней номенклатурно-химическая информация. В зависимости от типа морфемы эта информация может подразделяться на разные группы полей. Например, для морфемы «корневого» типа Root, служащего для описания фрагментов структурных цепочек химического соединения, указываются общее число атомов в цепочке соединения (без учета атомов водорода), общее число связей между этими атомами, после чего идет последовательное перечисление всех атомов с указанием для каждого из них его свободной валентности, затем следует аналогичное перечисление всех связей с указанием номеров связываемых вершин и кратпости каждой связи. Например, статья, описывающая корневую морфему «бут», в текстовом виде выглядит так (символ "#" использован в качестве разделителя полей):

бут 8 Root # 4 3 # С 3, С 2, С 2, С 3 # 1 2 1, 23 1, 341

Формат для описания морфем типов Suffix и Prefix аналогичен, но в нем предусмотрены специальные метки, позволяющие обращаться к тем вершинам основного графа, номера которых не известны заранее (см. табл. 4).

Табл. 4. Условные метки для обозначения вершин с неизвестными заранее номерами

Условные метки для обозначения вершин:

Метка: Значение:

0 Вершина, на которую указывает локант

1 Вершина, следующая за той, на которую указывает локант

-1 1-я вершина основной цепи

-2 2-я вершина основной цепи

-п п-я вершина основной цепи

-1000 Последняя вершина основной цепи

Также задан набор меток для преобразования связей (см. табл. 5):

Условные метки для преобразования связей:

Метка: Значение:

=2 Изменить связь на двойную

=3 Изменить связь на тройную

0 Удалить связь

Для примера приведем несколько статей словаря, описывающих ряд морфем типов Suffix и Prefix:

ен # Suffix #01##01=2 ин # Suffix #01##01=3 ол # Suffix (1 1 < ОН О t -1 1 1

овая кислота # Suffix # 2 2 # О О, ОН О I -1 1 2, -121 цикло # Prefix # 0 1 # # -1 -1000 1

В частности, как видно из описания, морфема «ол» обозначает подграф, состоящий из одной вершины, в которой находится элемент «ОН», и единственной связи, соединяющей данную вершину (код «1») с первой вершиной основной цепи (код «-1»), Другой пример - морфема «цикло», обозначающая вырожденный случай графа, который насчитывает ноль вершин и одну связь, соединяющую первую вершину основной цепи (код «-1») с последней ее вершиной (код «-1000»).

Для морфем типа Hetero (который отвечает за гетероатомы) после указания типа морфемы в словарной статье приводятся лишь атомный символ из периодической системы Д. И. Менделеева и его нормальная валентность. Так, статья, описывающая морфему «аза», в текстовом виде выглядит следующим образом: аэа # Hetero # N 3

Для описания морфем типа Multi в статье после типа морфемы указывается только соответствующий количественный индекс, например:

тетракис # Multi # 4 ди # Multi # 2

С помощью химико-номенклатурной информации, содержащейся в основном словаре, алгоритм программного модуля-номенклатора по морфемам, составляющим конкретное название химического соединения, воссоздает его структурный граф.

Второй разработанный словарь — словарь перевода — используется модулем-переводчиком. В словаре перевода, как и в основном словаре, содержится около 1100 статей. Каждая статья описывает одну химическую морфему, указывая ее русское название, ее тип и английское название.

В дальнейшем в словарь перевода можно будет добавить также немецкие, французские, испанские и т.д. варианты морфем, создав для них соответствующие поля в каждой словарной статье. Поскольку естественных языков существует множество, нет смысла обременять этой информацией основной словарь, ориентированный на построение структур.

Последний из составленных нами словарей — словарь синонимичных замен. Этот словарь указывает алгоритму программного комплекса на соответствие между некоторыми наиболее частотными синонимичными названиями или их фрагментами, что позволяет модулю-номенклатору обрабатывать большее количество названий химических соединений, в т.ч. некоторые названия, относящиеся к разделам номенклатуры, правила для которых еще не алгоритмизованы.

В Главе 4 рассмотрена предметная область ПТК «Номенклатурный Генератор». Проведен подробный анализ правил химической номенклатуры 1ИРАС для тех ее разделов, которые составляют предметную область модуля-номенклатора. Проиллюстрирована примерами методика присвоения названий органическим соединениям согласно рассмотренным правилам номенклатуры. Обозначены возможности функционального использования модуля-переводчика.

В Главе 5 дано описание алгоритмов модулей ПТК «Номенклатурный Генератор». Интерфейс ПТК представлен на рис. 4.

Р1е Лт, 1г.риС за

□ Й Я V: 3 14?

™ ..... ...............- ...........-.............

р-(4Ч-|ус1гсх>Ъеп2)ИЬ5 б-^ггеКхжу-З-гпе^рЬепо!

Структура ] Перевод 1 Конкорданс ; Отмена

|2-{4-гихзроксибвнэил)-5.6-11им9Токсл-3-м9тилд?внсл

Р Расстановка атомов водорода

»

Рис. 4. Интерфейс «Номенклатурного Генератора»

Представляемая в данной диссертационной работе версия ПТК опирается на словарь, состоящий из 1100 наиболее употребительных в химической номенклатуре морфем, и способна перевести до нескольких миллионов индивидуальных названий химических соединений, в т.ч. систематические, полусистематические и тривиальные названия.

Алгоритм модуля-номенклатора

Основные стадии алгоритма модуля-номенклатора представлены на рис. 5:

Ввод пользователем названия соединения в окне программы

Рис. 5. Стадии работы алгоритма модуля-номенклатора 16

Программа начинает свою работу с процедуры ввода пользователем названия химического соединения. Затем осуществляется процедура автоматического парсирования и разбиения введенного названия на морфемы. Для каждой из полученных таким образом морфем алгоритм прежде всего определяет ее тип согласно классификации морфем.

Затем на основе последовательности морфем, образующих введенное пользователем название химического соединения, формируется метастрока, состоящая из метасимволов. Полученная метастрока проверяется на валидность: алгоритм проверяет, не содержится ли в ней недопустимых сочетаний метасимволов. К примеру, по правилам химической номенклатуры два локанта не могут стоять в названии подряд, без разделяющего их служебного знака. Также, если в названии имеется открывающая скобка, то ей должна соответствовать закрывающая, расположенная правее. Недопустимые сочетания метасимволов в метастроке могут встретиться, например, в том случае, если пользователь, вводивший название в окне ПТК, допустил ошибку.

Затем метасимволы морфем словарных типов перенумеровываются, после чего из основного словаря программы считывается информация, соответствующая найденным в названии морфемам, и помещается в предназначенные для этого поля метасимволов.

Считав из словаря данные о химических характеристиках структурных цепочек, вершин, правил и модификаций, соответствующих найденным морфемам, алгоритм моду-ля-номенклатора производит ряд операций по восстановлению на основании этих данных единой структуры химического соединения. Для этого программа осуществляет процедуру свертки метастроки посредством применения к ней контекстных правил укорачивающей грамматики G. В процессе свертки фрагменты цепочек, соответствующих найденным морфемам, объединяются в граф всего соединения. Над графом производятся модификации сообразно той химико-структурной информации, которая приписана метасимволам, образующим метастроку. Затем граф проверяется на валидность (в т.ч., на связность и на соответствие валентностей атомов, стоящих в вершинах графа, законам химии).

Итоговый результат выводится в стандартный mol-файл и может быть отображен на экране монитора при помощи внешнего визуализатора (ISISYDraw, HyperChem и др.).

Особое место в алгоритме занимает процедура автоматического разбиения введенного пользователем названия химического соединения на морфемы. Действительно, чтобы построить по названию химического соединения его структурный граф, необходимо прежде всего правильно разделить название на составные части. Например, название «2-Метил-З-этилтетрадекат> должно быть разбито на морфемы «2», «-», «лют», «ил», «-», «5», «-», «эт», «ил», «тетрадек» и «an». Для этого в алгоритме предусмотрен цикл, в рамках которого введенное название химического соединения последовательно сравнивается с морфемами из основного словаря и со служебными морфемами. Если начало введенного названия совпадает с какой-либо морфемой, алгоритм заносит эту морфему в специальный массив и отсекает от названия последовательность символов, соответствующую этой морфеме; далее «вращение» в цикле продолжает уже не исходное название, а его остаток, полученный посредством отсечения найденной морфемы. Т.о., от исходного названия отщепляются (и заносятся в массив) одна за другой все составляющие его морфемы. В итоге, введегагое название должно превра-

титься в пустое слово, а внутри массива образуется последовательность составлявших название морфем. Стадии расщепления названия «2-Мгтил-З-этилтетрадекаи», выбранного в качестве примера, см. в табл. 6.

Табл. 6. Последовательное дробление введенного названия на морфемы с занесением найденных морфем в массив

Остаток введенного названия Содержимое массива

«2-Метил-З -этилтетрадекан» <пусто>

«-Метил-З-этил-тетрадекан» {2}

« Метил-3 -этилтетраде кан» <2,->

«ил-3-этилтетрадекан» {2, мет}

«-3-этилтетрадекан» {2, -, мет, ил}

«3 -этилтетрадекан» {2, -, мет, ил, -}

«-этилтетрадекан» {2, мет, ил, -, 3}

«этилтетрадекан» {2, мет, ил, -, 3, -}

«шггетрадекан» {2, -, мет, ил, 3, -, эт}

«тетрадекан» {2, -, мет, ил, -, 3, -, эт, ил}

«ан» {2, -, мет, ил, -, 3, -, эт, ил, тетрадек}

<пусто> {2, -, мет, ил, 3, -, эт, ил, тетрадек, ан}

Для адекватного сопоставления начального фрагмента остатка названия соответствующей морфеме из словаря требуется, чтобы словарь был упорядочен по длине морфем от наибольшей к наименьшей. Иначе дробление названия может быть произведено неправильно, т.к. в словаре содержатся морфемы с совпадающим началом (например, «тетрадек» и «татра»). Т.о., чтобы в примере «2-Метил-З-этилтетрадекан» алгоритм выделил именно морфему «тетрадек» (а не «тетра»), нужно, чтобы в словаре морфема «тетрадек» предшествовала морфеме «тетра» и, следовательно, при поиске по словарю была бы найдена первой.

Из общего принципа упорядочивании словаря по убыванию длины морфем имеются определенные исключения. Действительно, хотя в большинстве случаев упорядоченный подобным образом словарь обеспечивает правильность разбиения названия на морфемы, существуют ситуации (и даже целые классы ситуаций), где такой подход дает ложный результат. Например, при разбиении простейшего названия «Пентан» вместо морфемы «пент» будет выделена (как более длинная) морфема «пента» (также содержащаяся в словаре, но обладающая совершенно иным значением). Это приведет к сбою алгоритма на следующем витке цикла, т.к. элемент «и», остающийся от названия «Пентан» после удаления фрагмента «пента», морфемой не является и в словаре не содержится. Аналогичная ситуация имеет место и для всех последующих «алифатических» названий данного ряда, таких как «Гексан», «Гептан» и т.д. Эту проблему удалось разрешить, обратившись к анализу «правого» контекста.

Алгоритм модуля-переводчика

Основные стадии алгоритма модуля-переводчика таковы:

• Ввод пользователем названия химического соединения;

• Процедура дробления введенного названия на морфемы;

• Поиск полученных морфем в словаре перевода;

• Автоматическое определение направления перевода;

13

• Последовательный по.морфемный перевод;

• Окончательная обработка названия;

• Вывод на экран конечного результата.

Аналогично алгоритму модуля-номенклатора, осуществляется ввод пользователем названия химического соединения, которое затем так же разделяется на составные части-морфемы. Однако информацию о морфемах модуль-переводчик, в отличие от номенклатора, считывает не из основного словаря, а из специализировашгого словаря перевода. При переводе названия химического соединения с одного естественного языка на другой собственно химические характеристики не играют особой роли: информация о морфемах, считываемая алгоритмом из словаря перевода, носит сугубо лингвистический характер.

Алгоритм модуля-переводчика автоматически устанавливает языковую принадлежность морфем, полученных при членении введенного названия, и соответственно определяет направление перевода. Перевод осуществляется поморфемно: каждое вхождение во введенное название химической морфемы, представленное на «языке входа», заменяется эквивалентом этой морфемы на «языке выхода». В результате получается квазипереведенное название химического соединения, которое в одних случаях требует дополнительной обработки (например, синтаксического упорядочивания отдельных его компонентов или снятия омонимии) для получения окончательного перевода названия, а в других (более простых) случаях полностью совпадает с окончательным переводом названия и в дальнейшей обработке не нуждается. Полученный результат выводится на экран.

Модуль-переводчик осуществляет перевод названий химических соединений с русского на английский и с английского на русский язык в рамках экспериментального массива из 1100 наиболее употребительных в химической номенклатуре морфем. Т.о., модуль-переводчик способен перевести до нескольких миллионов названий химических соединений, как чисто систематических, так и тривиальных. Алгоритм модуля-конкорданса

Основные стадии алгоритма модуля-конкорданса таковы:

• Ввод пользователем названия химического соединения;

• Поиск введешюго названия в «именной» части базы данных конкорданса;

• В случае успешного нахождения названия — переход к файлу из «структурной» части БД конкорданса, содержащему информацию о структуре, соответствующей найденному названию; если же название в «именной» части не обнаружено - возврат к началу алгоритма;

• Копирование содержимого файла в результирующий файл всей программы.

Алгоритм модуля-конкорданса не предполагает ни анализа введенного названия химического соединения, ни синтеза на основе этого названия структурного графа или иноязычного эквивалента названия. Конкорданс представляет собой несложную поисковую систему но заранее созданному массиву структурных данных. Алгоритм ищет введенное пользователем название химического соединения в «именной» части базы данных конкорданса и, в случае успешного нахождения, извлекает (по имеющейся при найденном названии ссылке) соответ-

19

ствующий данному названию структурный граф из «структурной» части базы данных. Т.о., модуль-конкорданс позволяет рационально использовать огромный запас информации о химических соединениях, накопленный за многие годы в Базе структурных данных ВИНИТИ РАН.

Три вышеописанных модуля интегрированы в единый программно-технологический комплекс с общим интерфейсом.

ЗАКЛЮЧЕНИЕ

В диссертационной работе были решены выдвинутые задачи:

1. Проведен анализ существующих программных средств порождения структурного графа по названию химического соединения, а также выполнена оценка их возможностей.

2. Выявлена специфика систематической номенклатуры названий химических соединений на примере ряда важнейших классов органических соединений (в т.ч. алифатических соединений; моноциклических соединений; соединений с функциональными группами, называемых по заместительной номенклатуре; соединений, называемых по заменительной номенклатуре; соединений, называемых по расширешюй системе Ганча-Видмана; ряда гетероциклических и ароматических соединений; некоторых соединений, сохраняющих тривиальные названия).

3. Проведен лингвистический анализ предметной области и построена ее лингвистическая модель:

а) разработана новейшая классификация химических морфем;

б) построена модель языка химической номенклатуры в виде формальной укорачивающей грамматики в, отвечающей за свертку названий химических соединений в соответствующие им структурные графы.

4. Составлены специализированные словари морфем:

а) основной словарь, содержащий химико-структурную информацию о морфемах;

б) словарь перевода, содержащий русский и английский варианты морфем;

в) словарь синонимичных замен, содержащий морфемы и фрагменты названий, эквивалентность которых установлена правилами химической номенклатуры.

5. Разработаны собственные программные средства для порождения структурного графа по названию химического соединешм (в рамках выбранной предметной области).

6. Разработаны методы, алгоритмы и программы автоматического перевода названий химических соединений с русского на английский и с английского на русский язык.

7. Создана поисковая система — модуль-конкорданс.

8. Разработанные программные средства интегрированы в единый программно-технологический комплекс «Номенклатурный Генератор»; проведено его тестирование на пробном массиве и практическая апробация.

В ходе работы были разрешены (в пределах избранной экспериментальной области) определенные лингвистические и ачгоритмические проблемы: проблема омонимии химических морфем, проблема синонимии названий химических соединений, проблема ложного дробления названий химических соединений, проблема построения словарей, а также организации словарных статей для основного словаря химических морфем.

Т.о.. в рамках диссертационной работы был создан трехмодульный программно-технологический комплекс «Номенклатурный Генератор», позволяющий по вводимому пользователем русскому названию органического соединения получить его структурный граф, либо осуществить перевод введенного названия с русского на английский и с английского на русский язык.

Публикации автора по теме диссертации в журналах списка ВАК:

1. Григорян JI. А. Разработка словарей морфем химической номенклатуры // Вестиик РГТУ, № 8 (130), серия «Филологические науки. Языкознание» / Московский лингвистический журнал, т. 16, 2014, с. 139-149.

2. Бондарь В. В., Винокуров Е. Г., Григорян JI. А. Укорачивающая грамматика на основе обновленной классификации морфем химической номенклатуры, используемая в программном комплексе «Номенклатурный Генератор» // НТИ. Серия 2, 2014, № 7, с. 6-15.

3. Григорян Л. А., Боцдарь В. В., Немировская И. Б. Программа перевода систематических названий химических соединений с русского на английский язык // Химическая технология, 2007, №2, с. 93-96.

4. Григорян Л. А., Бондарь В. В., Немировская И. Б. Программа перевода систематических названий химических соединений в молекулярные графы (расширение на заменительную номенклатуру) // НТИ. Серия 2, 2006, № 3, с. 21-25.

5. Григорян Л. А., Бондарь В. В., Немировская И. Б. Программа перевода систематических названий химических соединений в молекулярные графы (расширение на класс ароматических соединений) // НТИ. Серия 2, 2006, № 8, с. 21-26.

Публикации автора по теме диссертации в материалах международных конференций:

6. Григорян Л. А., Бондарь В. В., Винокуров Е. Г. Информационные технологии межъязыкового машинного перевода названий химических соединений // Химическая технология и биотехнология новых материалов и продуктов. VI Международная конференция РХО им. Д. И. Менделеева: тез. докл. - М.: РХТУ им. Д. И. Менделеева, 2014. - С. 19-20.

7. Григорян Л. А., Винокуров Е. Г., Бондарь В. В. Трехмодульный программный комплекс для перевода русскоязычного названия органического соединения в структурный граф // Успехи в химии и химической технологии: сб. науч. тр. Том XXVIII, № 1 (150). - М.: РХТУ им. Д. И. Менделеева, 2014. - С. 117-119.

8. Бондарь В. В., Григорян Л. А. Сколько научных публикаций в год выходит в РФ? // НТИ-2012: 8 Международная конференция, посвященная 60-летию ВИНИТИ, «Актуальные проблемы информационного обеспечения науки, аналитической и инновационной деятельности», Москва, 28-30 ноября, 2012: Мат. конф. М.: ВИНИТИ РАН. 2012, с. 60-61.

9. Бондарь В. В., Григорян Л, А., Немировская И. Б. Автоматический перевод систематических названий органических соединений с русского на английский и с английского на русский язык // XVIII Менделеевский съезд по общей и прикладной химии. II Российско-индийский симпозиум по органической химии. 2007, с. 170.

10. Бондарь В. В., Григорян Л. А., Немировская И. Б. Разработка программы перевода систематических названий органических соединений с английского на русский и с русского на анг-

лийский язык // НТИ-2007: 7 Международная конференция, посвященная 55-летию ВИНИТИ, «Информационное общество. Интеллектуальная обработка информации. Информационные технологии», Москва, 24-26 окт., 2007: Материалы конференции. М.: ВИНИТИ РАН. 2007, с. 53-56.

11. Григорян Л. А. Автоматическое порождение структуры по названию химического соединения // Компьютерная лингвистика и интеллектуальные технологии: Тр. Межд. конф. «Диа-лог-2006» (Бекасово, 31 мая - 4 июня 2006 г.), - М.: Изд-во РГГУ, 2006, с. 119-123.

Свидетельство о регистрации программного продукта:

12. Григорян Л. А., Винокуров Е. Г., Бондарь В. В., Марголин Л. Н., Фарафонов В. В., Королева Л. М. Программный комплекс «Номенклатурный Генератор», предназначенный для преобразования названий органических соединений в MOL-формат, отражающий структуру молекулярного графа. — Свидетельство о государственной регистрации программы для ЭВМ Ка 2014619365. Правообладатель ФГБУН ВИНИТИ РАН (RU); заявка № 2014617378; дата поступления 25.07.2014; дата гос. регистрации в Реестре программ для ЭВМ 15.09.2014.

Прочие публикации автора по теме диссертации:

13. Григорян Л. А. Программа автоматического порождения структурного графа химического соединения по его систематическому названию П Успехи в химии и химической технологии: сб. науч. тр. Том XX, № 2 (60). - М.: РХТУ им. Д. И. Менделеева, 2006, с. 115-116.

14. Григорян Л. А. Программа автоматического перевода систематических названий химических соединений с русского языка на английский II Успехи в химии и химической технологии: сб. науч. тр. Т. XX, № 2 (60). - М.: РХТУ им. Д. И. Менделеева, 2006, с. 116-118.

15. Григорян Л. А. Программа перевода систематических названий химических соединений в молекулярпые графы (расширение на номенклатуру Ганча-Видмана); ВИНИТИ. — М., 2006, 19 е., ил., библ.: 10 назв. - Рус. - Деп. в ВИНИТИ РАН 25.08.06, № 1103-В 2006.

Подписано в печать: 03.07.2015

Заказ ЛЪ 10816 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru