автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа

кандидата технических наук
Мошков, Илья Сергеевич
город
Самара
год
2012
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа»

Автореферат диссертации по теме "Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа"

На правах рукописи

МОШКОВ Илья Сергеевич

СИСТЕМНЫЙ АНАЛИЗ ТЕКСТОВОГО ПРЕДСТАВЛЕНИЯ ТАКСОНОМИИ И РАЗРАБОТКА МОДЕЛЕЙ ДЛЯ ОЦЕНКИ ПРОФЕССИОНАЛЬНЫХ ЗНАНИЙ С ИСПОЛЬЗОВАНИЕМ ТЕСТОВ ОТКРЫТОГО ТИПА

Специальность 05.13.01 - Системный анализ, управление и обработка информации (промышленность)

Автореферат диссертации на соискание ученой степени кандидата технических наук

1 2 ДПР 2012

Самара-2012

005018290

005018290

Работа выполнена на кафедре «Информационные технологии» Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Самарский государственный технический университет»

Научный руководитель: доктор технических наук, доцент

Якимов Владимир Николаевич

Официальные оппоненты: Дилигенский Николай Владимирович

заслуженный деятель науки РФ, доктор технических наук, профессор, Самарский государственный технический университет, зав. кафедрой «Управление и системный анализ в теплоэнергетике»

Минаков Игорь Александрович

доктор технических наук, Учреждение Российской академии наук Институт проблем управления сложными системами РАН (ИПУСС РАН), г. Самара, старший научный сотрудник лаборатории анализа и моделирования сложных систем

Ведущая организация: Научно-производственный центр

информационных и транспортных систем (НПЦИНФОТРАНС), г.Самара

о ■"> Л\

Защита состоится » оир^вО^л. 2012 года в 1 ' часов

на заседании диссертационного совета Д 212.217.03

ФГБОУ ВПО «Самарский государственный технический университет»

по адресу: г. Самара, ул. Галактионовская, 141, корпус № 6, ауд. 33.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Самарский государственный технический университет» по адресу: ул. Первомайская, 18.

Отзывы на автореферат в 2-х экземплярах, заверенные печатью, просим направлять на имя ученого секретаря диссертационного совета Д 212.217.03 по адресу: 443100, г. Самара, ул. Молодогвардейская, 244, ФГБОУ ВПО «Самарский государственный технический университет», Главный корпус. Факс (846) 278-44-00

Автореферат разослан « » 2012 года

Ученый секретарь

диссертационного совета Д 212.217.03

Губанов Н.Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Современная промышленность имеет сложную диверсифицированную многоотраслевую структуру и характеризуется высоким уровнем специализации производства. В результате важнейшим стратегическим ресурсом промышленного производства становятся профессиональные знания. Вследствие этого подготовка квалифицированных кадров и совершенствование их знаний отнесены к числу высших приоритетов государства, что отмечено в проекте документа «Основы политики Российской Федерации в области развития науки и технологий на период до 2020 года и дальнейшую перспективу». Следует отметить и то, что растет число предприятий, эксплуатирующих опасные производственные объекты. Неквалифицированные действия специалистов на таких предприятиях могут привести к производственным инцидентам катастрофического характера. Поэтому деятельность промышленных предприятий регулируется федеральным законом «О промышленной безопасности опасных производственных объектов», согласно которому они должны регулярно проводить аттестацию работников.

Оценить степень готовности специалистов выполнять свои текущие служебные обязанности можно лишь только в ходе постоянного мониторинга их профессиональных знаний. Для этого предприятие должно уметь идентифицировать знания, требуемые для его нормальной производственной деятельности, и иметь организационные и технические возможности сравнить их с действительным состоянием знаний своих специалистов.

Формирование потенциала профессиональных знаний базируется на таксономии многообразных форм теоретических знаний и опыта работы специалистов. Таксономия знаний - это результат идентификации и структурирования знаний, это иерархическая система классификации, которая, будучи основана на отношениях подчинения, помогает систематизировать процедуру группировки и категоризации формализованных знаний. Важным свойством таксономического представления профессиональных знаний является то, что оно способствует выявлению случаев возникновения проблем со знаниями у специалистов и позволяет связать их с определенной категорией причин.

Понимая всю значимость проверки уровня квалификации специалистов, следует иметь в виду, что промышленное производство накладывает определенные особенности на представление и оценку их профессиональных знаний. Эти особенности обусловлены как объективными факторами (непрерывным обновлением технологий, сменой номенклатуры производимой продукции, спецификой условий производства, наличием различий между предприятиями даже в рамках одной отрасли и т.п.), так и субъективными факто-

рами (ведомственными нормативными актами, особенностями руководства и его индивидуальными установками, мотивацией работников и т.п.).

В настоящее время для оценки знаний специалистов широко применяются тестовые испытания и экспертное оценивание. При этом в процессе тестирования в основном используются тесты закрытого типа. Процедуру такого тестирования можно легко автоматизировать, но она не выявляет способности тестируемого к рациональному мышлению и не позволяет проанализировать ход его рассуждений. Что касается экспертного оценивания, то оно позволяет оценить весь комплекс знаний специалиста и получить представление о его компетентности принимать решения, но автоматизация такого контроля знаний затруднена вследствие непосредственного участия в нем экспертов. Получить информацию о том, насколько системно специалист владеет профессиональными знаниями, можно с помощью тестов открытого типа. Поэтому они могут быть использованы для оценки системно-организованных профессиональных знаний и способности применять их на практике. Однако автоматизация этих тестов приводит к необходимости анализа текстов на естественном языке, что сдерживает их применение на практике.

Таким образом, создание качественного инструментария оценки профессиональных знаний специалистов, следует рассматривать как важную, актуальную проблему современного промышленного производства.

В соответствии с вышеизложенным, целью диссертационной работы является системный анализ представления таксономии в текстах на естественном языке, разработка моделей терминологических и системно-организованных профессиональных знаний и создание на их основе алгоритмического и программного обеспечения для оценки знаний специалистов промышленных предприятий с использованием тестов открытого типа.

Для достижения поставленной цели были решены следующие задачи:

1) проведен анализ методов контроля и формализованного представления профессиональных знаний в промышленности, а также анализ методов извлечения знаний из связного текста на естественном языке и языковых средств формирования текстов данного вида;

2) проведен системный анализ представления таксономии в тексте на естественном языке, определены его основные языковые конструкции, среди которых особое внимание уделено понятию термина как элементу языка фиксации знаний, а также исследована связь этих конструкций с представленными в них элементами знаний;

3) разработана формальная модель термина, позволяющая хранить смысловые значения терминов, которые используются при описании таксономии профессиональных знаний;

4) на основе модели термина разработана формальная модель таксономии, предназначенная для хранения совокупности смысловых значений терминов в процессе организации баз профессиональных знаний;

5) разработана методика оценки профессиональных знаний, основанная на сопоставлении смыслового содержания баз профессиональных знаний, созданных экспертами, и данных о знаниях специалистов, полученных в результате автоматизированного анализа тестов открытого типа;

6) на основе моделей термина и таксономии разработано алгоритмическое обеспечение, которое позволяет проводить анализ текстов на естественном языке, описывающих таксономию, а также рассмотрена программная реализация этих алгоритмов для автоматизированной оценки профессиональных знаний специалистов с использованием тестов открытого типа.

Методы исследования. В качестве методологической основы решения указанных задач в диссертационной работе использовались методы системного и функционального анализа, графоаналитические методы, методы представления знаний. Для подтверждения полученных теоретических результатов применялись методы экспериментальных исследований совместно с методами математического и имитационного моделирования.

Научная новизна заключается в следующем:

1) проведен системный анализ представления таксономии в виде связанных текстов, который позволил установить закономерности построения таких текстов и выявить типовые языковые конструкции, используемые для описания терминологических и системно-организованных знаний в виде иерархических структур;

2) разработана формальная модель описания терминов, отличительной особенностью которой является то, что она за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;

3) разработана формальная модель описания таксономии, отличающаяся от известных тем, что она позволяет связывать системно-организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;

4) предложена методика анализа текстов на естественном языке, особенностью которой является использование синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций текстового представления таксономических структур в соответствии с разработанными формальными моделями терминов и таксономии;

5) предложена методика оценки профессиональных знаний, отличительная особенность которой заключается в возможности сравнения знаний специалистов с формализованными знаниями, как между терминами таксо-

номии, так и между составными частями сложного термина, что позволяет дать комплексную оценку системности знаний специалистов.

Практическая значимость работы:

1) разработанные модели терминов и таксономии позволяют экспертам представлять терминологические и системно-организованные профессиональные знания в виде баз формализованных знаний с учетом специфики производственных процессов конкретных промышленных предприятий;

2) предложенная методика анализа текста, описывающего классификацию, позволяет извлекать из него терминологические и системно-организованные профессиональные знания и осуществлять оценку знаний специалистов, путем сопоставления их с формализованными знаниями;

3) разработанное алгоритмическое и программное обеспечение может быть использовано при построении систем оценки профессиональных знаний для автоматизированного контроля компетенций специалистов промышленных предприятий при подборе новых работников, а также в процессе подготовки и проведения аттестации персонала.

Реализация результатов исследований. Диссертационная работа выполнена в соответствии с действующим координационным планом фундаментальных научных направлений деятельности ФГБОУ ВПО «Самарский государственный технический университет» (СамГТУ) в рамках темы «Системный анализ сложных технических объектов и методы обработки информации». Результаты диссертационной работы апробированы в ООО «Региональная энергетическая сервисная компания «Искра» (г. Самара). Материалы диссертационной работы также используются в учебном процессе СамГТУ в лекционном курсе и лабораторном практикуме по дисциплине «Системы искусственного интеллекта» для студентов специальности 230102 «Автоматизированные системы обработки информации и управления».

Положения, выносимые на защиту:

1) формальная модель описания терминов, которая за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;

2) формальная модель описания таксономии, связывающая системно-организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;

3) методика анализа текстов на естественном языке, основанная на построении синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций;

4) методика оценки профессиональных знаний, позволяющая осуществлять комплексный анализ знаний специалистов в результате выполнения

процедуры их сравнения с базами формализованных знаний, как на уровне терминов таксономии, так и между составными частями сложного термина.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях: Международной конференции по мягким вычислениям и измерениям (Санкт-Петербург, 2008, 2010, 2011); Международной научно-практической конференции «Фундаментальные и прикладные проблемы приборостроения, информатики и экономики» (Сочи, 2008, 2010, 2011); Международной научно-практической конференции «Ресурсо- и энергосберегающие технологии и оборудование, экологически безопасные технологии» (Минск, 2010); Международной научно-практической конференции «Инновация-2011» (Ташкент, 2011); Всероссийской научно-практической конференции «Наука. Технологии. Инновации» (Новосибирск, 2009); Всероссийской научно-практической конференции «Компьютерные технологии в науке, практике и образовании» (Самара, 2010, 2011); Всероссийской научно-практической конференции ученых и педагогов-практиков «Актуальные проблемы развития высшего и среднего образования на современном этапе» (Самара, 2008).

Основные публикации. По теме диссертационной работы опубликовано 19 работ, 5 из которых опубликованы в рецензируемых изданиях из перечня ВАК России, а также получено одно свидетельство об официальной регистрации программы для ЭВМ.

Структура и объем диссертационной работы. Общий объем работы 173 страницы. Диссертация состоит из введения, четырех разделов и заключения, изложенных на 159 страницах, включая 43 рисунка, 7 таблиц, а также содержит список использованных источников из 108 наименований на 11 страницах и 3 приложения на 3 страницах.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, определены цель и задачи исследований, охарактеризована научная новизна и практическая значимость полученных результатов, приведены сведения по апробации и реализации работы, а также сформулированы основные положения, выносимые на защиту.

В первом разделе рассмотрена проблема автоматизированной оценки профессиональных знаний специалистов.

Обеспечить объективную оценку профессиональных знаний специалистов можно только с учетом специфики их формирования и структурной организации. Документально закрепленные профессиональные знания являются формализованными, причем в основе их формализации лежат те или иные

принципы систематизации. Фактически приходится иметь дело с системно-организованной совокупностью формализованных профессиональных знаний, которым свойственна иерархичность описания производственных процессов в виде таксономических структур.

В настоящее время интенсивно применяется тестовая форма контроля профессиональных знаний, а также их экспертное оценивание. Получившие широкое распространение тесты закрытого типа можно легко автоматизировать, но они не позволяют оценивать высокопродуктивные уровни знаний. Экспертное оценивание позволяет решить эту проблему. Однако автоматизация такого оценивания затруднена в виду участия в его процессе экспертов.

Достаточно объективную оценку профессиональных знаний могут дать тесты открытого типа, но в этом случае автоматизация тестирования приводит к необходимости обработки высказываний специалистов в виде текстов на естественном языке. Для этого необходимо располагать моделями и базами профессиональных знаний, построение которых связано со сложностями, обусловленными большим количеством задействованных понятий и их высокой связностью. Найти рациональное решение данной проблемы можно, если учесть таксономический характер организации профессиональных знаний.

В процессе решения указанной проблемы были рассмотрены вопросы структурной организации текста, методы его автоматизированной обработки и методы построения баз профессиональных знаний. Было учтено, что организация текстов является сложной, многоуровневой и открытой системой. В качестве основных уровней выделены морфологический, синтаксический и семантический уровни, на каждом из которых были рассмотрены и обобщены языковые средства формирования типовых языковых конструкций.

Морфологический уровень определяет характеристики отдельных слов. Слово на этом уровне рассматривается как набор морфем, которые являются значимой текстовой единицей слова. Основной характеристикой слова является часть речи. Представление об организации текста на морфологическом уровне позволяет учитывать согласованность слов предложения в процессе автоматизированной обработки текста.

Языковые конструкции на синтаксическом уровне строятся на основе правил согласования морфологических характеристик. На этом уровне можно получить представление об языковых средствах установления потенциальных ролей слов и их структурной организации в предложении. При этом текст рассматривается как линейная последовательность связанных синтаксических единиц, которыми являются отдельные слова, словосочетания и предложения. Основными средствами представления синтаксических связей являются морфологические словоизменительные характеристики, части речи, служебные слова, знаки препинания и порядок слов в предложениях. Также

существует ряд ограничений, определяющих правильность построения синтаксической структуры: проективность, древовидность, согласованность синтаксических ролей слов и их порядок в предложении. Выделение синтаксических единиц при автоматизированной обработке текста позволяет делить его на относительно равнозначные фрагменты по смысловому наполнению.

На семантическом уровне организацию профессиональных знаний можно рассматривать как многомерную структуру с точки зрения связности смысловых конструкций. На этом уровне выделяются дополнительные уровни для представления значений языковых конструкций: 1) уровень слова; 2) уровень словосочетания; 3) уровень сегмента предложения; 4) уровень предложения; 5) уровень абзаца; 6) уровень текстового документа. В зависимости от ролей, которые играют смысловые конструкции в предложении, можно выделить: 1) субъект, о котором идет речь; 2) действие, которое совершает субъект; 3) объект (или объекты), над которым совершаются действия. Представление текста в виде уровневой структуры обуславливается содержащейся в тексте информацией, а также накладываемыми на него правилами и ограничениями. В связи с этим, для осуществления автоматизированной обработки текстов следует располагать моделью представления знаний, учитывающей связь с каждым из уровней представления текста.

В зависимости от уровня организации текста, выделяют следующие методы его анализа: графематический, морфологический, синтаксический, семантический и прагматический. Каждый из этих видов анализа осуществляется на соответствующем уровне организации текста. Морфологический и синтаксический виды анализа несущественно зависят от поставленных задач анализа текста. При этом имеются достаточно хорошо разработанные способы их практической реализации. Семантический анализ существенно зависит от конечной цели анализа текста и во многом определяется используемой моделью представления знаний.

Анализ моделей представления знаний показал, что наиболее адекватной формой представления профессиональных знаний является иерархическая семантическая сеть. Она соответствует специфике формирования профессиональных знаний. При этом для повышения детализации описания понятий следует ввести трехуровневую организацию такой сети. На этих уровнях будем иметь: 1) множество элементов, образующих единое понятие; 2) множество взаимосвязанных понятий, образующих единую таксономию знаний; 3) множество альтернативных способов классификации понятий.

Таким образом, проведенные исследования показали, что оценивание профессиональных знаний с использованием тестов открытого типа требует сравнения извлекаемых из текста на естественном языке знаний специалиста (субъективных знаний) с формализованными экспертными знаниями. Вслед-

ствие этого требуется наличие обобщенной модели представления формализованных профессиональных знаний. Данная модель должна отражать терминологию и альтернативное описание системно-организованных знаний.

Во втором разделе рассматриваются вопросы системного анализа представления таксономии в тексте, а также вопросы, связанные с разработкой модели профессиональных знаний. В процессе системного анализа использовалось два подхода к рассмотрению текста: имманентный и репрезентативный. Имманентный подход исходил из рассмотрения текста как законченного по своему содержанию фрагмента и был направлен на выявление его внутренней структуры. Репрезентативный подход основывался на рассмотрении текста как формы представления знаний об объективно существующей по отношению к нему области профессиональных интересов.

Системный анализ представления таксономии в тексте позволил установить основные закономерности построения языковых конструкций, используемых для его формирования. С учетом этих закономерностей высказывание специалиста можно записать следующим образом:

ф =< ОЪ}, М, Л'с >, (1)

где ОЬ] — языковые конструкции смысловых объектов (конструкции языка-объекта), описывающие в тексте производственные объекты, их состояния, а также технологические процессы; М1 - языковые конструкции, которые связывают объекты между собой и описывают особенное га их структурной организации (конструкции метаязыка)-, N0 - нецелевые языковые конструкции, смысловое значение которых не относится к описанию таксономии.

Высказывание специалиста рассматривается как связный текст. В соответствии с этим показано, что описание таксономии на уровне текста определяет ее смысловое содержание, а на уровне предложения - как правило, группу смысловых объектов, связанных с объектами предыдущего предложения и непосредственно между собой. Поэтому предложение рпринадлежащее высказыванию (р, можно представить как совокупность множеств:

р?=<ОЪ/,Ь,К,Т>, (2)

где ОЦр - множество терминов предложения; Ь - множество связей между терминами; К - множество критериев их деления, Т - множество метаязы-ковых конструкций, описывающих особенности таксономии.

На уровне словосочетания в зависимости от особенностей текстового представления и принадлежности к элементам таксономии описание смыслового объекта представляется следующей конструкцией:

ОЩ -< Р,к,БиЬ >, (3)

где Р - множество признаков, описывающих смысловой объект; к - основное смысловое содержание объекта (.ядро); Sub - подчиненный ядру смысловой объект {субъект).

В процессе системного анализа языковые конструкции, описывающие понятия таксономии, были определены как термины. Также были определены четыре основные семантические роли слов, образующих термин.

1) Слово может являться ядром к термина и ассоциироваться со смысловым значением объекта. На синтаксическом уровне представления текста ядро не подчинено другим словам этого термина, но все остальные его слова имеют прямое или косвенное синтаксическое подчинение ядру.

2) Слово может обозначать субъектную часть термина Sub, которое модифицирует значение всего термина за счет вложенных терминов. Ядро термина субъектной части синтаксически согласовано с ядром всего термина.

3) Слово может относиться к признаковой части Р, которое состоит из множества признаков р,. Признаки служат для модификации описываемого значения термина и разграничения значений родственных терминов. Они не имеют никакой внутренней семантической структуры. На синтаксическом уровне представления текста признаки связаны только с ядром текущего термина и являются, как правило, определениями.

4) Слово может принадлежать логической части термина Log, которая может состоять из множества терминов, присоединенных к основному термину с помощью логических связей. В логической части, как правило, используются сложные термины, которые в отдельных случаях могут быть заменены их признаками. В работе такой тип термина определен как логически присоединенный термин (ЛПТ).

На рисунке 1 приведены основные языковые конструкции текста, описывающего таксономию, и их семантические роли.

Языковые конструкции

Метаязык Описание общих деталей таксономии Описание связей между терминами

Описание критериев деления Логические операции над терминами

Рисунок 1 - Типы языковых конструкций текста, описывающего таксономию

Язык-объект

и

Совокупность языковых конструкций могут образовывать сложный термин, в котором каждая конструкция играет свою роль. Схема семантических ролей языковых конструкций сложного термина приведена на рисунке 2. Этот рисунок иллюстрирует, что в общем случае между ядром к термина существуют внутренние связи с другими терминами, которые также присутствуют в модели представления знаний как самостоятельные термины.

Множество ядер Множество признаков

родственных терминов терминаР

CDQGD

4 ^

Г Базовая часть термина Л

^ ядрок J

У

Множество ядер ЛПТ Log Субъективная часть Sub

(S)Q<S) ( Базовая часть киь )

Рисунок 2 - Схема семантических ролей языковых конструкций сложного термина

Для того чтобы связать сложный термин, состоящий из множества слов, с его значением, были разработаны структуры морфологического и семантического словарей. Семантический словарь является основой для построения модели представления таксономии и описывается выражением:

DS=<We,Sern,Fscm,F;i>, (4)

где We - морфологический словарь, содержащий множество словоизменительных парадигм всех слов; Sem - множество значений слов, связанных со словоизменительными парадигмами; Fsem - функция, определяющая значение слова; F'^, - функция, определяющая текстовое представление значения.

На основе семантических ролей и связей языковых конструкций термина разработана модель сложного составного термина:

(5)

где N - число подчиненных ядру к признаков термина; М - число подчиненных ядру к ЛПТ; tS(k) - внутренний термин с ядром ks, подчиненным ядру к; tm - ЛПТ с ядром kL, подчиненному ядру к.

В зависимости от ts{k)и Тцк) термины классифицированы по структурной сложности на четыре типа. Простой термин: ts(k) =0, Тцк) = 0. Сложный термин: tS(k)*0, Tm=0. Составной термин: tsa) =0, Тцк)*0.

Сложный составной термин: tS{k) * 0, Тик) Ф 0.

12

В процессе построения модели таксономии, были рассмотрены способы определения родственных связей между смысловыми значениями, задаваемыми семантическим словарем. Сложные термины /," =<k,ts/"~[ > ссылаются на более простые термины t"'1 =<k,tsmN'1 >, где N - количество вложенных терминов, а i, j ,т - индексы терминов. Для того чтобы иметь возможность оценивать модификацию смысловых значений сложного термина, обусловленную субъективным искажением, введены простейшие таксономии, которые описывают структурную организацию простейших терминов. Простейшей считается таксономия 7У°, для которой корневой элемент tr°"''" е Тг" и

является простым термином, т.е. t""'ß =<£>, где i - индекс таксономии,у -индекс термина. В свою очередь сложной считается таксономия Тгf, в которой С" -< k'tf'S > > где внутренний термин tf N е 7г; ■ Пример формирования смысловых значений в таксономию представлен на рисунке 3.

Множество терминов

Рисунок 3 - Пример формирования смысловых значений в таксономию

В вершине любой таксономии Тг находится термин 1™", который классифицируется посредством подчиненных терминов таксономии. В одной таксономии находятся термины, которые напрямую или косвенно связаны друг с другом родовидовой или партитивной связью. Следовательно, для любого термина таксономии, кроме Г"', выполняется условие:

е Тг'±] е Тг = (6)

где t¡ и tJ - два родственных термина одной таксономии ТУ; Р1 - предикат, определяющий косвенную связь между терминами.

Обобщенная модель таксономии построена на основе множества терминов и множества таксономий различного уровня сложности, а также функций определения связности. Она имеет вид:

А =<{/„...,/»,/'„/!'„ >, (7)

где Ри и Р, - предикаты, определяющие соответственно непосредственную и косвенную связи двух терминов; Рь - функция связи одного термина с одной группой терминов, объединенной одним критерием деления Кг.

Модели (5) и (7) позволяют экспертам представлять терминологические и системно-организованные профессиональные знания в виде баз формализованных знаний с учетом специфики производственных процессов.

В третьем разделе рассмотрены вопросы разработки алгоритмического обеспечения системы оценки профессиональных знаний на основе разработанных моделей термина и таксономии. Структурная схема системы оценки профессиональных знаний представлена на рисунке 4. Основными компонентами системы являются лингвистический процессор, база профессиональных знаний и оценочные аппараты структуры таксономии и терминов. Лингвистический процессор обеспечивает извлечение профессиональных знаний из текста. Он содержит: препроцессор; морфологический, синтаксический и семантический анализаторы. Препроцессор собирает отдельные символы в слова, а также разбивает предложения на сегменты в соответствии с принципами организации предложений (1), (2), (3). Сегменты разбиваются так, чтобы простой термин находился только в одном сегменте:

-а^Е (8)

Морфологический анализатор сопоставляет слово с его словоизменительной парадигмой на основе словарного метода.

Работа синтаксического анализатора основана на принципах организации связного текстового представления таксономии (2) и на принципе деления слов в термине по их семантическим ролям (5). Для формализации данных принципов разработаны шаблоны языковых конструкций. При этом простейший шаблон слова ц> имеет вид:

<у\{р1,...,рп...,р„)>, (9)

где р, - ¡-ое свойство слова; /V-число свойств.

На основе простейшего шаблона с учетом согласованности свойств р! строится множество шаблонов, позволяющих проводить синтаксический анализ сложных терминов сегмента текста и строить его синтаксическую структуру. В таблице 1 приведены основные синтаксические шаблоны.

Таксономический текст

Лингвистический процессор

И

Препроцессор

Морфологический анализатор / Морфологическая модель текст« /

Синтаксический анализатор Синтаксические шаблоны

Синтаксическая оценка по | критериям соответствия роли (

^ ^ _

! Синтаксическая модель текста /

Семантический анализатор

/ Модель субъективных знаний ~1 - ^ £ __

И-

Кг

База профессиональных знаний

Морфологический словарь

Семантический словарь Общая лексика Профессиональная лексика

Модель таксономических знаний Модель таксономии

Модель сложных составных терминов

Г

Модель зкслертных знаний /

^ и -

I Оценочный аппарат структуры таксономии __________________

г--------------------------

Оценочный аппарат терминов

«_______

Рисунок 4 - Структурная схема системы оценки профессиональных знаний Таблица 1. Основные синтаксические шаблоны

Семантическая роль языковой конструкции Шаблоц

Ядро термина <к> ::= <\у(ЛсуЩ) а„)>|{<\у(!т_^, Т|,ірсд, Оі)>}х-»^(ііс,щ, Оі)>

Признак термина <р> ::= <w(o¡, 5, /4, ^)>{<к(о;, ц)>)

Ядро внутреннего термина <к>{<к>|<к>}<\у(^ч, а,) >

Согласование признаков <к,(ст, тр /4>)>[<р(о;, 5, /4,)>}+<—»хк^оь % /4,у>

Ядро ЛПТ <к1> ::= {<к>|<к'>}Мт_^, Т]^, сг,)}<№(77„ч, еті)>

Термин <0 ::= [<р>]*<к>[<Г>][<И>]*

Внутренний термин <Ґ> ::= [<р>]*<к'>[<1">][<11>]"

ЛПТ <Й> ::= Мт^а 0;)}[<р>]*<к1(ст,)>[<1'>]

Вхождение в таксономию <Тах> ::=<\у(т_с1, ц^хо

Связь между терминами <Ь> ::= {-Чо>}<^(т_<іІУ, 77г„)>[<^-><*(іІ^М {(<^с1>)}

Критерий деления Кг т кг)>Г<\\'(^.ч> т_кг)>]}<1,>{<к'2>}

Предложение <5еп> ::= [<ІС>]<ІоХІ>[-^ГР>]<і_5еі>

На этапе семантического анализа для подтверждения семантических ролей синтаксических конструкций используется набор семантических правил. Они основаны на сопоставлении предполагаемой роли языковой конструкции с ролю, заданной в базе профессиональных знаний. Основные семантические правила приведены в таблице 2. В этой таблице X = {Хр,Хк,Хк.,Ха}

- множество семантических ролей элементов термина, а е(ш) - функция проверки семантических ролей значения языковой конструкции со.

Таблица 2. Основные правила подтверждения семантической роли

Семантическая роль языковой конструкции Семантическое правило

Связь языковых конструкций Няіь(соі,Фг) = 1 Р^^ГсоО, ^(Юг))

Проверка ядра Нк(ю) = (КкЄ Е(Ш))

Проверка признака Нр(со) = (Хр є є((і)))л(Зсо2: Нк (срг)лНЯ1ь(со,ш2))

Проверка ядра внутреннего термина Нк(со) = (ХкЛк-є е(т))л(3<02: Нк(о)г)лН5и1,(ш,(02))

Проверка ядра ЛПТ Ни(со) = (Хи, Е(ш))л(Эо>г: Нк (о)2)лН5иЬ(ш,о>2))

Проверка термина Н,(е) = НклНрлНклНк1

Проверка термина темы НіьО) = Н.(1)лР,(1,1(,(ь)л(3і2: Ри(12> 1,) = 1)

Проверка терминов ремы нл(1) = н.соаРкі,

Проверка связи между терминами Нь(ш) = ^ є Е(ю)л(31еТл: ^,(1,и))

Проверка критерия деления Нь(й), 0 = Я-ь є е(ш)л(ієКг)л(Т*є Кг)

Профессиональные знания оцениваются на основе результатов семантического анализа. Численное значение оценки соответствия моделей субъективных и экспертных знаний определяется как:

й^МахОЛА )> (Ю)

где (2а1(С:,<]) - оценка соответствия г-ого термина г] построенной модели таксономии уому термину в экспертной таксономии.

&«?.';>*<* (И)

где £?,ег(/,с,ф - оценка близости структур терминов (¡, и а -

оценка близости этих терминов в модели таксономии.

где Яс(.~) и Яэ(...) - операторы определения длины пути между терминами в вершинах субъективной и экспертной таксономий; - оператор опре-

деления подчиняющего (родительского) термина. ^ и

йег 77 2 ' М м

о.-ага.*; е га V е га,- 03)

0е =

Д.+1

--^--О„(к,) • £)гг(к,),3т:к> е ТЯ V к' е 77?,

где М - число корневых вершин в структуре термина; - оценка 1-ого элемента термина; к. и к. - ¡-ые значения ядер термина в экспертной и субъективной таксономиях; 0(к-,к.) - длина пути между вершинами, соответствующим понятиям в простейшей таксономии ТЯ; £>„ — эталонная длина пути между ядрами в субъективной и эталонной таксономиях; <)р(.к1) и (^ц^) -оценки соответствия признаков и ЛПТ.

Оценки (±р(к1) и равны:

2,(*,) = I е;,,; ¡2;,,= I с^.е^да; (14)

где и Р^ — множества признаков экспертной и субъективной таксономии, относящиеся к ядру кг, С„;„ и Саг - коэффициенты поправки, которые задаются экспертами и учитывают соответственно случаи возможного отсутствия термина или наличие недопустимого термина в субъективной модели знаний.

Оценка (10), будучи основана на выборе максимально подходящих терминов субъективного и экспертного смыслового содержания моделей таксономии, позволяет судить о степени отклонения субъективных знаний специалистов от экспертных знаний. На основе оценки (10) с учетом выражений (11)-(14), а также с учетом представленных выше синтаксических шаблонов и семантических правил (таблицы 1 и 2), разработано алгоритмическое обеспечение, которое позволяет автоматизировать процедуру обработки текстового представления таксономии и оценки профессиональных знаний.

В четвертом разделе рассмотрена практическая реализация системы обработки текста, описывающего таксономическую структуру.

Разработанная система реализует три функции: 1) создание и обновление базы экспертных знаний; 2) извлечение знаний специалистов из текстов на естественном языке в процессе тестирования; 3) оценку знаний специали-

стов. Данная система основана на модульном принципе построения в рамках объектно-ориентированного программирования. В работе приводятся диаграммы классов моделей хранения и обработки терминов. В особый класс выделены системы связанных таксономий. Кроме того, приводятся диаграммы потоков данных процесса обработки высказываний на различных этапах оценки профессиональных знаний.

Апробация системы была осуществлена в процессе тестирования специалистов ООО «Региональная энергетическая сервисная компания «Искра» (г. Самара, 2012). Целью апробации системы было подтверждение достоверности предложенных методик анализа текстов и оценки профессиональных знаний специалистов. Для подтверждения достоверности результатов был разработан сценарий эксперимента, состоящий из двух этапов: 1) подбор исходного материала для оценки; 2) получение и обработка результатов тестирования. Для определения степени связности экспертной и программной оценок использовался коэффициент корреляции Пирсона:

1=I ¡=1

(15)

у

где х. и у, - значения экспертных и программных оценок, хну- средние значения этих оценок; N - общее количество оценок.

На рисунке 5 приведены диаграммы рассеяния экспертных оценок и оценок, полученных программным путем. Диаграммы также иллюстрируют зависимость получаемых результатов тестирования от сложности описываемой таксономии.

=Г 4

О

5 3

X «

5 1

X

« п

Соотношение экспертной и программной оценки

0.2 0,3 0,4 0,5 0,6 0,7 0,8 Программная оценка

а)

® 4 О

I3

о

5 1

к

О о

Соотношение экспертной

и программной оценки

• ♦ ♦♦♦ «

0,1 0,2 0.3 0.4 05 0,6 0,7 Программная оценка

0,в 0,9

б)

Рисунок 5 - Диаграммы рассеяния экспертных и программных оценок результатов открытого тестирования

Как следует из этих диаграмм, результаты тестирования зависят от выбранной сложности терминологии, используемой для описания таксономии, которая определяется как количество внутренних ядер термина. Для таксономии, основанной на термине сложностью 2 (см. рисунок 5а), коэффициент корреляции экспертной и программной оценки составил 0,931. Для комплексной таксономии, основанной на термине íSA сложностью 4 (см. рисунок 56), коэффициент корреляции для распознанных ответов составил 0,896. Степень распознавания уменьшается в тех случаях, когда ответ имеет сложную логическую структуру или характеризуется низкой системностью описания. Отсюда следует, что в случае корректного распознавания материалов тестирования, разработанная система позволяет получать в автоматизированном режиме оценки профессиональных знаний специалистов, сопоставимые с результатами экспертного оценивания.

Таким образом, экспериментальные исследования свидетельствуют о том, что данную систему можно использовать в процессе контроля знаний специалистов промышленного производства.

В заключении приведены основные научные результаты работы.

Основные результаты и выводы

1. Профессиональные знания специалистов являются формализованными, и им свойственна иерархичность описания производственных процессов в виде таксономических структур. Получить достаточно объективную оценку профессиональных знаний можно с использованием тестов открытого типа. Однако автоматизация этих тестов приводит к необходимости обработки текстов на естественном языке.

2. Системный анализ представления таксономии в тексте позволил выявить основные типовые языковые конструкции, среди которых особое внимание уделено понятию термина. Также исследована связь выявленных языковых конструкций с их смысловым содержанием.

3. На основе типовых языковых конструкций представления таксономии в тексте разработана формальная модель термина, которая позволяет хранить смысловые значения, используемые при описании таксономии профессиональных знаний.

4. Разработанная модель термина послужила основой для построения модели таксономии профессиональных знаний. Данная модель позволяет проводить обработку текстового представления таксономии, как на уровне отдельных терминов, так и на уровне таксономии в целом, а также интерпретировать полученные результаты обработки.

5. Разработаны синтаксические шаблоны ролей языковых конструкций и семантические правила распознавания текстового представления таксономии, которые позволили формализовать процедуру анализа профессиональных знаний в процессе использования тестов открытого типа. На основе этих шаблонов и правил предложена методика обработки текстового представления таксономии.

6. Разработана методика оценки соответствия моделей субъективных и экспертных знаний, основанная на выборе максимально подходящих терминов субъективного и экспертного смыслового содержания моделей таксономии, которая позволяет судить о степени отклонения субъективных знаний специалистов от экспертных знаний.

7. Разработано алгоритмическое и прикладное программное обеспечение системы обработки результатов тестов открытого типа, которое осуществляет автоматизированную оценку профессиональных знаний специалистов.

Опубликованные работы по теме диссертации

Публикации в рецензируемых изданиях из перечня ВАК:

1. Мошков И.С. Автоматическое извлечение знаний о таксономиях из текста на естественном языке / И.С. Мошков // Вест. Самар. гос. техн. ун-та. Сер. «Технические науки». - 2011. - № 1 (29). - С. 45-51.

2. Мошков И.С. Система распознавания терминов таксономии в документах на естественном языке / И.С. Мошков, В.Н. Якимов // Программные продукты и системы. - 2011. - № 3 (95). - С. 36-41.

3. Мошков И.С. Методика анализа сложных составных терминов в тексте на естественном языке / И.С. Мошков, В.Н. Якимов // Информационные технологии. - 2011. - № 11. - С. 26-30.

4. Мошков И.С. Сопоставление синтактико-грамматической и семантической моделей в процессе анализа текста на естественном языке / И.С. Мошков // Вест. Самар. гос. техн. ун-та. Сер. «Технические науки». -2011.-№3(31).-С. 82-88.

5. Мошков И.С. Структурный анализ сложных терминов в технических документах / И.С. Мошков, В.Н. Якимов // Интеллектуальные системы в производстве. - 2011. - № 2. - С. 270-278.

Публикации в других изданиях:

6. Мошков И.С. Проблема анализа текста на естественном языке в задачах обработки результатов открытого тестирования [Текст] / В.Н.Якимов, И.С. Мошков // Сборник докладов Международной конференции по мягким вычислениям и измерениям (SCM'2008). 23-25 июня 2008 г. - Санкт-Петербург: СПбГЭТУ «ЛЭТИ», 2008. - Т.1. - С.210-214.

20

7. Мошков И.С. Методика оценки знаний в текстах результатов открытого тестирования / И .С. Мошков, В.Н. Якимов // Научные труды XI Международной научно-практической конференции «Фундаментальные и прикладные проблемы приборостроения, информатики и экономики». 6-10 октября 2008: книга «Информатика». - М.: МГУПИ, 2008. - С. 206-211.

8. Мошков И.С. Обработка синтактико-грамматической структуры текста таксономического типа в процессе распознавания/ И.С. Мошков // Наука. Технологии. Инновации: Материалы Всероссийской научно-практической конференции молодых ученых. - Новосибирск, 2009 - С. 61-62.

9. Мошков И.С. Особенности анализа на естественном языке, описывающих таксономическую структуру / И.С. Мошков, В.Н. Якимов // Сборник докладов Х1И Международной конференции но мягким вычислениям и измерениям (БСМ'гОЮ). 23-25 июня 2010 г. - Санкт-Петербург: СПбГЭТУ «ЛЭТИ», 2010. - Т.1. - С.232-236.

10. Мошков И.С. Построение синтактико-грамматической и семантической моделей текста, описывающих таксономическую структуру / И.С. Мошков, В.Н. Якимов // «Фундаментальные и прикладные проблемы приборостроения и информатики»: Сборник научных трудов по материалам XIII Международной научно-практической конференции. Сочи, 4-8 октября 2010: книга «Информатика». - М.: МГУПИ, 2010. - С. 145-149.

11. Мошков И.С. Анализ способов описания классификаций в тексте на естественном языке / И.С. Мошков // Компьютерные технологии в науке, практике, образовании: Труды IX Всероссийской научно-практической конференции. 18 ноября 2010 / Самар. гос. техн. ун-т. - Самара, 2010. - С. 48-50.

12. Мошков И.С. Извлечение объектов предметной области из текста с таксономической структурой / И.С. Мошков, В.Н. Якимов // Компьютерные технологии в науке, практике и образовании: Труды IX Всероссийской межвузовской научно-практической конференции. 18 ноября 2010 / Самар. гос. техн. ун-т. - Самара, 2010. - С. 51-53.

13. Мошков И.С. Определение объектов и их характеристик в процессе обработки текстовой информации / И.С. Мошков, В.Н. Якимов // «Ресурсо- и энергосберегающие технологии и оборудование, экологически безопасные технологии»: Материалы IX Междунар. науч.-техн. конф., Минск, 24-26 ноября 2010 г. - Минск: Белорусский гос. техн. ун-т, 2010. - 4.2. - С.334-337.

14. Мошков И.С. Анализ структуры сложных составных терминов в тексте таксономического типа / И.С. Мошков, В.Н. Якимов // Сборник докладов XIV Международной конференции по мягким вычислениям и измерениям (8СМ'2011). 23-25 июня 2011 г. - Санкт-Петербург: СПбГЭТУ «ЛЭТИ», 2011. - Т. 1. - С.279-283.

15. Мошков И.С. Компьютерная система анализа текста таксономического типа применительно к оценке профессиональных знаний / А.Н. Краснов, И.С. Мошков, В.Н. Якимов // Международная научно-практическая конференция «Инновация-2011»: Сборник научных статей. Ташкент, 25-27 октября 2011 / Ташкентский гос. техн. ун-т. - Ташкент, 2011. - С. 287-289.

16. Мошков И.С., Якимов В.Н. Построение синтактико-грамматической и семантической моделей знаний в текстовых документах / И.С. Мошков, В.Н. Якимов // «Фундаментальные и прикладные проблемы приборостроения и информатики»: Сборник науч. трудов по материалам XIV Международной научно-практической конференции. Сочи, 3-7 октября 2011: книга «Информатика. Информационная безопасность». -М.: МГУПИ, 2011. - С. 125-129.

17. Мошков И.С. Особенности описания терминов в тексте таксономического типа / И.С. Мошков // Компьютерные технологии в науке, практике и образовании: Труды X Всероссийской межвуз. научно-практической конференции. 17 ноября 2011 / Самар. гос. техн. ун-т. - Самара, 2011. - С. 67-70.

18. Мошков И.С. Принципы построения модели знаний для анализа текстового представления таксономической структуры / И.С. Мошков // Компьютерные технологии в науке, практике и образовании: Труды X Всероссийской межвуз. научно-практической конференции. 17 ноября 2011 / Самар. гос. техн. ун-т. - Самара, 2011. - С. 70-73.

19. Мошков И.С. Формирование стандартной языковой картины предметной области как основа теоретической подготовки студентов [Текст] /

B.В. Жиров, А.Н. Краснов, А.Н. Меркушев, О.Н. Моисеева, И.С. Мошков,

C.А. Никаев, Е.А. Слоева // Актуальные проблемы развития высшего и среднего образования на современном этапе: Материалы Всероссийской научно-практической конференции ученых и педагогов-практиков. - Самара: Изд-во Самарского научного центра РАН, 2008 -Т.1. - С. 271-273.

20. Свидетельство об официальной регистрации программы для ЭВМ №2012611706, Рос. Федерация. Прикладная программа анализа терминов в тексте таксономического типа на естественном языке / В.Н. Якимов (РФ), И.С. Мошков (РФ). - Зарегистрировано в Реестре программ для ЭВМ 15.02.2012. Заявка №2011619647, 15.12.2011.

Автореферат отпечатан с разрешения диссертационного совета Д 212.217.03 ФГБОУ ВПО «Самарский государственный технический университет» (протокол № 2 от 6 марта 2012г.)

Заказ №214. Формат 60x84 Усл. печ. л. 1,0. Тираж 100 экз.

Отпечатано в типографии. ФГБОУ ВПО «Самарский государственный технический университет»

443100, г. Самара, ул. Молодогвардейская, 244

Текст работы Мошков, Илья Сергеевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

61 12-5/3398

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Самарский государственный технический университет»

На правах рукописи

Мошков Илья Сергеевич

СИСТЕМНЫЙ АНАЛИЗ ТЕКСТОВОГО ПРЕДСТАВЛЕНИЯ ТАКСОНОМИИ И РАЗРАБОТКА МОДЕЛЕЙ ДЛЯ ОЦЕНКИ ПРОФЕССИОНАЛЬНЫХ ЗНАНИЙ С ИСПОЛЬЗОВАНИЕМ

ТЕСТОВ ОТКРЫТОГО ТИПА

Специальность 05 Л 3.01 - Системный анализ, управление и обработка информации (промышленность)

Диссертация на соискание учёной степени кандидата технических наук

Научный руководитель: доктор технических наук, доцент Якимов Владимир Николаевич

Самара-2012

СОДЕРЖАНИЕ

Введение.....................................................................................4

1 Проблема автоматизированной оценки профессиональных знаний

специалистов в текстах на естественном языке.................................11

1.1 Организация и методы контроля профессиональных знаний............11

1.2 Структурная организация текстов на естественном языке...............16

1.3 Методы автоматизированного анализа текстов.............................30

1.4 Модели представления и оценка профессиональных знаний в системах обработки текстов..................................................................37

1.5 Выводы..............................................................................41

2 Системный анализ текстового представления таксономии на естественном

языке и разработка моделей профессиональных знаний......................43

2.1 Проблема разработки моделей терминологических и системно-организованных профессиональных знаний.................................43

2.2 Системный анализ текстового представления таксономии на естественном языке................................................................47

2.2.1 Анализ описания таксономии на текстовом уровне..................47

2.2.2 Анализ текстового представления терминов..........................56

2.3 Формальная модель описания термина и таксономии.....................62

2.4 Обработка текстового представления формализованных профессиональных знаний.......................................................76

2.5 Выводы..............................................................................83

3. Разработка алгоритмического обеспечения оценки профессиональных

знаний на основе тестов открытого типа..........................................86

3.1 Требования к алгоритмическому обеспечению системы оценки профессиональных знаний.......................................................86

3.2 Алгоритм обработки текста лингвистическим процессором.............90

3.2.1 Алгоритм обработки текста препроцессором..........................90

3.2.2 Алгоритм реализации морфологического анализа...................91

3.2.3 Алгоритм синтаксического анализа.....................................94

3.2.4 Алгоритм семантического анализа.....................................110

3.3 Методика оценки субъективной модели знаний таксономии...........120

3.4 Выводы.............................................................................127

4. Разработка структуры и программная реализация системы

автоматизированной оценки профессиональных знаний.....................129

4.1 Требования к структуре и программной реализации системы оценки профессиональных знаний......................................................129

4.2 Разработка модульной структуры системы автоматизированной оценки профессиональных знаний......................................................132

4.3 Программная реализация системы автоматизированной оценки профессиональных знаний......................................................146

4.4 Апробация системы автоматизированной оценки профессиональных знаний...............................................................................151

4.5 Выводы.............................................................................155

Заключение................................................................................157

Список литературы......................................................................160

Приложение А............................................................................171

Приложение Б.............................................................................172

Приложение В.............................................................................173

ВВЕДЕНИЕ

Актуальность проблемы. Современная промышленность имеет сложную диверсифицированную многоотраслевую структуру и характеризуется высоким уровнем специализации производства. При этом наблюдается устойчивая тенденция к усложнению технологических процессов и задействованных в них средств производства. В результате этого важнейшим стратегическим ресурсом производства становятся профессиональные знания. Данное обстоятельство требует подготовки специалистов, обладающих необходимым уровнем профессиональных компетенций, которые определяются как соответствие знаний, умений и производственного опыта в рамках определенной профессиональной квалификации реальному уровню сложности выполняемых работ. Вследствие этого подготовка квалифицированных кадров и совершенствование их знаний отнесены к числу высших приоритетов государства, что отмечено в проекте документа «Основы политики Российской Федерации в области развития науки и технологий на период до 2020 года и дальнейшую перспективу» [5]. Следует также отметить и то, что растет число предприятий, эксплуатирующих опасные производственные объекты. Неквалифицированные действия специалистов на таких предприятиях могут привести к производственным инцидентам с весьма значительными последствиями, в том числе и катастрофического характера. Поэтому деятельность промышленных предприятий регулируется федеральным законом «О промышленной безопасности опасных производственных объектов» (№ 116-ФЗ, 21 июля 1997 г.) [6]. Согласно этому закону, предприятия должны осуществлять аттестацию работников, чтобы обеспечить допуск к опасным производственным объектам лиц, удовлетворяющих необходимым квалификационным требованиям.

Следовательно, кадровая политика любого промышленного предприятия становится неотъемлемой частью организационного управления и, бу-

дучи тесно увязана со всеми направлениями работы, превращается в один из решающих факторов его экономического развития.

Оценить степень готовности специалистов выполнять свои текущие служебные обязанности можно лишь только в ходе постоянного мониторинга их профессиональных знаний. Для этого предприятие должно уметь идентифицировать знания, требуемые для его нормальной производственной деятельности, и иметь организационные и технические возможности сравнить их с действительным состоянием знаний своих специалистов.

Формирование потенциала профессиональных знаний базируется на таксономии многообразных форм теоретических знаний и опыта работы специалистов. Таксономия - результат идентификации и структурирования знаний, это иерархическая система классификации, которая, будучи основанная на отношениях подчинения, помогает систематизировать процедуру группировки и категоризации формализованных знаний [3]. Важным свойством таксономического представления профессиональных знаний, является то, что оно способствует выявлению случаев возникновения проблем со знаниями у специалистов и позволяет связать их с определенной категорией причин.

Понимая всю значимость проверки уровня квалификации специалистов, следует иметь в виду, что промышленное производство накладывает определенные особенности на представление и оценку их профессиональных знаний. Эти особенности обусловлены как объективными факторами (непрерывным обновлением технологий, сменой номенклатуры производимой продукции, спецификой условий производства, наличием различий между предприятиями даже в рамках одной отрасли и т.п.), так и субъективными факторами (ведомственными нормативными актами, особенностями руководства и его индивидуальными установками, мотивацией работников и т.п.).

В настоящее время для оценки знаний специалистов широко применяются тестовые испытания и экспертное оценивание [9, 27]. При этом в процессе тестирования в основном используются тесты закрытого типа. Проце-

дуру такого тестирования можно легко автоматизировать, но она не выявляет способности тестируемого к рациональному мышлению и не позволяет проанализировать ход его рассуждений. Что касается экспертного оценивания, то оно позволяет оценить весь комплекс знаний специалиста и получить представление о его компетентности принимать решения, но автоматизация такого контроля знаний затруднена из-за непосредственного участия в нем экспертов. Получить информацию насколько системно специалист владеет профессиональными знаниями можно с помощью тестов открытого типа [40, 58, 61]. Поэтому они могут быть использованы для оценки системно-организованных профессиональных знаний и умения применять их в реальных условиях производства. Однако автоматизация этих тестов приводят к необходимости анализа текстов на естественном языке, что сдерживает их применение на практике.

Таким образом, создание качественного инструментария оценки профессиональных знаний специалистов, следует рассматривать как важную, актуальную проблему современного промышленного производства.

В соответствии с вышеизложенным, целью диссертационной работы является системный анализ представления таксономии в текстах на естественном языке, разработка моделей терминологических и системно-организованных профессиональных знаний и создание на их основе алгоритмического и программного обеспечения для оценки знаний специалистов промышленных предприятий с использованием тестов открытого типа.

Для достижения поставленной цели были решены следующие задачи:

1) проведен анализ методов контроля и формализованного представления профессиональных знаний в промышленности, а также анализ методов извлечения знаний из связного текста на естественном языке и языковых средств формирования текстов данного вида;

2) проведен системный анализ текстового представления таксономии, определены его основные языковые конструкции, среди которых особое

внимание уделено понятию термина как элементу языка фиксации знаний, а также исследована связь этих конструкций с представленными в них элементами знаний;

3) разработана формальная модель термина, позволяющая хранить смысловые значения терминов, которые используются при описании таксономии профессиональных знаний;

4) на основе модели термина разработана формальная модель таксономии, предназначенная для хранения совокупности смысловых значений терминов в процессе организации баз профессиональных знаний;

5) разработана методика оценки профессиональных знаний, основанная на сопоставлении смыслового содержания баз профессиональных знаний, созданных экспертами, и данных о знаниях специалистов, полученных в результате автоматизированного анализа тестов открытого типа;

6) на основе моделей термина и таксономии разработано алгоритмическое обеспечение, которое позволяет проводить анализ текстов на естественном языке, описывающих таксономию, а также рассмотрена программная реализация этих алгоритмов для автоматизированной оценки профессиональных знаний специалистов с использованием тестов открытого типа.

Методы исследования. В качестве методологической основы решения указанных задач в диссертационной работе использовались методы системного и функционального анализа, графоаналитические методы, методы представления знаний. Для подтверждения полученных теоретических результатов применялись методы экспериментальных исследований совместно с методами математического и имитационного моделирования.

Научная новизна заключается в следующем:

1) проведен системный анализ представления таксономии в виде связанных текстов, который позволил установить закономерности построения таких текстов и выявить типовые языковые конструкции, используемые для

описания терминологических и системно-организованных знаний в виде иерархических структур;

2) разработана формальная модель описания терминов, отличительной особенностью которой является то, что она за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;

3) разработана формальная модель описания таксономии, отличающаяся от известных тем, что она позволяет связывать системно-организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;

4) предложена методика анализа текстов на естественном языке, особенностью которой является использование синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций текстового представления таксономических структур в соответствии с разработанными формальными моделями терминов и таксономии;

5) предложена методика оценки профессиональных знаний, отличительная особенность которой заключается в возможности сравнения знаний специалистов с формализованными знаниями, как между терминами таксономии, так и между составными частями сложного термина, что позволяет дать комплексную оценку системности знаний специалистов.

Практическая значимость работы:

1) разработанные модели терминов и таксономии позволяют экспертам представлять терминологические и системно-организованные профессиональные знания в виде баз формализованных знаний с учетом специфики производственных процессов конкретных промышленных предприятий;

2) предложенная методика анализа текста, описывающего классификацию, позволяет извлекать из него терминологические и системно-организованные профессиональные знания и осуществлять оценку знаний специалистов, путем сопоставления их с формализованными знаниями;

3) разработанное алгоритмическое и программное обеспечение может быть использовано при построении систем для автоматизированной оценки профессиональных знаний специалистов промышленных предприятий при подборе новых работников, а также в процессе повышения квалификации и проведения аттестации персонала.

Реализация результатов исследований. Диссертационная работа выполнена в соответствии с действующим координационным планом фундаментальных научных направлений деятельности ФГБОУ ВПО «Самарский государственный технический университет» (СамГТУ) в рамках темы «Системный анализ сложных технических объектов и методы обработки информации». Результаты диссертационной работы апробированы в ООО «Региональная энергетическая сервисная компания «Искра» (г. Самара). Материалы диссертационной работы также используются в учебном процессе СамГТУ в лекционном курсе и лабораторном практикуме по дисциплине «Системы искусственного интеллекта» для студентов специальности 230102 «Автоматизированные системы обработки информации и управления».

Положения, выносимые на защиту:

1) формальная модель описания терминов, которая за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;

2) формальная модель описания таксономии, связывающая системно-организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;

3) методика анализа текстов на естественном языке, основанная на построении синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций;

4) методика оценки профессиональных знаний, позволяющая осуществлять комплексный анализ знаний специалистов в результате выполнения

процедуры их сравнения с базами формализованных знаний, как на уровне терминов таксономии, так и между составными частями сложного термина.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях: Международной конференции по мягким вычислениям и измерениям (Санкт-Петербург, 2008, 2010, 2011); Международной научно-практической конференция «Фундаментальные и прикладные проблемы приборостроения, информатики и экономики» (Сочи, 2008, 2010, 2011); Международной научно-практической конференции «Ресурсо- и энергосберегающие технологии и оборудование, экологически безопасные технологии» (Минск, 2010); Международной научно-практической конференции «Инновация-2011» (Ташкент, 2011); Всероссийской научно-практической конференции «Наука. Технологии. Инновации» (Новосибирск, 2009); Всероссийской научно-практической конференции «Компьютерные технологии в науке, практике и образовании» (Самара, 2010, 2011); Всероссийской научно-практической конференции ученых и педагогов-практиков «Актуальные проблемы развития высшего и среднего образования на современном этапе» (Самара, 2008).

Основные публикации. По теме диссертационной работы опубликовано 19 работ, 5 из которых опубликованы в рецензируемых изданиях из перечня ВАК России, а также получено одно свидетельство об официальной регистрации программы для ЭВМ.

1 ПРОБЛЕМА АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ ПРОФЕССИОНАЛЬНЫХ ЗНАНИЙ СПЕЦИАЛИСТОВ В ТЕКСТАХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

1.1 Организация и методы контроля профессиональных знаний

Современные промышленные предприятия являются высокотехнологичными и функц�