Автоматизация формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике

Зеленков, Павел Викторович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Автоматизация формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике

кандидата технических наук: Зеленков, Павел Викторович
город: Красноярск
год: 2005
специальность ВАК РФ: 05.13.01

Автореферат по информатике, вычислительной технике и управлению на тему «Автоматизация формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике»

Автореферат диссертации по теме "Автоматизация формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике"

На правах рукописи /

Зеленков Павел Викторович

АВТОМАТИЗАЦИЯ ФОРМИРОВАНИЯ МУЛЬТИЛИНГВИСТИЧЕСКОГО ИНФОРМАЦИОННОГО БАЗИСА СИСТЕМ АДАПТИВНОГО ОБУЧЕНИЯ ТЕРМИНОЛОГИЧЕСКОЙ ЛЕКСИКЕ

05.13.01 - Системный анализ, управление и обработка информации (по отраслям: информатика, вычислительная техника и управление)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2005

Работа выполнена в Красноярском государственном техническом университете

Научный руководитель:

Официальные оппоненты:

доктор технических наук, профессор Ковалев Игорь Владимирович

доктор технических наук, профессор Доррер Георгий Алексеевич

кандитат технических наук, доцент Усачев Александр Владимирович

Ведущая организация: государственный научно -

исследовательский институт информационных технологий и телекоммуникаций «Информика» (г. Москва).

Защита состоится " 28 " октября 2005 года в 14 часов на заседании диссертационного Совета Д212.098.04 при Красноярском государственном техническом университете по адресу: ул. Киренского, 26, Красноярск, 660074, ауд. Д 501.

Факс КГТУ: (3912) 43-06-92 e-mail: sovet@front.ru

С диссертацией можно ознакомиться в библиотеке Красноярского государственного технического университета.

Автореферат разослан " 27 " сентября 2005 года.

Ученый секретарь диссертационного совета

доктор технических наук Сергей Александрович Бронов

ж? 3

705ЭОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы.

Роль информационных технологий и компьютерных интерактивных средств обучения занимает все более существенное место в образовании. Одной из областей, в большой мере приветствующих применение компьютерных обучающих технологий, является изучение иностранных языков. Новые информационные технологии изучения иностранных языков, в частности, иностранной лексики и пополнение словарного запаса особенно востребованы в последнее время в связи с расширением сотрудничества российских и зарубежных специалистов. Кроме того, в последние годы отмечается рост количества студентов, слушающих лекции на иностранных языках, либо готовящихся к обучению в ' зарубежных ВУЗах. Следует отметить новые возможности участия в

международных конференциях как молодых ученых, так и студентов. Развитие дистанционного образования и возросшие возможности подключения к сети Интернет расширили области внедрения компьютерных систем обучения иностранной терминологической лексике и обусловили повышение спроса на разработку новых адаптивно-обучающих технологий.

Практика показывает, что специалистам, сотрудничающим с иностранными коллегами и работающим со специализированной иностранной литературой, студентам, а также лицам, изучающим языки для своих профессиональных целей, приходится часто сталкиваться с проблемой недостаточного иностранного профессионально-ориентированного словарного запаса.

Последние исследования показывают, что одним из новых эффективных путей решения проблемы интенсивного накопления иностранного профессионально-ориентированного словарного запаса является применение мультилингвистической адаптивно-обучающей технологии, информационным базисом которой являются частотные словари.

При разработке аппарата алгоритмической поддержки компьютерных обучающих технологий проблеме построения модели обучаемого и модификаций ранее известных моделей в настоящее время уделяется значительное внимание. Однако, во многих алгоритмах обучения, реализуемых в компьютерных обучающих системах, не всегда отражены индивидуальность подхода к обучаемому, учет конкретных параметров процессов запоминания и забывания и формирования ассоциативного поля вокруг запоминаемых понятий. Наличие указанных факторов в сочетании с возможностью представления ученика как сложного объекта управления расширяет рамки исследования и определяет актуальность темы диссертационной работы. Одним из перспективных направлений в данной области является модификация -модели^ обучения, предложенной профессором Растригиным Л.А., I млоддамлжНХ^стического информационно-терминологического бависа. библиотека, I

* !

Недостаточная автоматизация процесса формирования частотных словарей, которые являются информационно-терминологическим базисом мультилингвистической адаптивно-обучающей технологии существенно затрудняет дальнейшее исследование алгоритмов обучения. Работы в этом направлении ведутся непрерывно уже в течение ряда лет и можно особо отметить работы Усачева А. В. и Карасевой М.В. Для решения поставленных проблем Усачевым A.B. предлагается использовать прикладные технологии систем искусственного интеллекта, а именно нейронных сетей. В работе Карасевой М.В. предлагается модель формирования и структура мультилингвистического частотного словаря для трехъязычного случая. Однако не решенными остаются проблемы поиска, подбора мультилингвистической информации, ее дальнейшего анализа и обработки при формировании многоязычных словарей.

Объект исследования - процесс формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике.

Предмет исследования - метапоисковая технология автоматизированного формирования мультилингвистического информационно-терминологического базиса.

Целью диссертационной работы является совершенствование методов автоматизации процесса формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике. Задачи исследования

Поставленная цель достигается путем решения следующих задач: анализ компьютерных систем обучения иностранной терминологической лексике и развитие мультилингвистической адаптивно-обучающей технологии;

анализ систем и алгоритмов поиска и метапоиска мультилингвистической информации в сети Internet; модификация существующих алгоритмов поиска информации, разработка новых алгоритмов для формирования и актуализации многоязычных (мультилингвистических) частотных словарей, являющихся информационно-терминологическим базисом мультилингвистической адаптивно-обучающей технологии; разработка алгоритма определения уровня релевантности Internet-отклика запросу, удовлетворяющему предметной области, с использованием частотных словарей;

модификация существующей системы адаптивного обучения с учетом новой структуры мультилингвистического информационно-терминологического базиса в виде многоязычных частотных словарей, ее программная реализация и внедрение в практику. Методы исследования. При выполнении работы использовались методы структурного системного анализа, методы измерения количественных и качественных показателей, методы оптимизации, статистические методы обработки данных, методы поиска и обработки

информации.

Научная новизна исследования состоит в следующем: разработана новая модель поиска мультилингвистической информации в глобальной сети Internet, отличающаяся от известных процедурами формирования запросов и обработкой отклика, которые базируются на узкоспециализированных многоязычных частотных словарях;

впервые предложена методика обеспечения заданного уровня релевантности электронных документов требуемой предметной области, использующая мультилингв истический информационно-терминологический базис;

разработан новый алгоритм ранжирования информации для мультилингвистической метапоисковой технологии, отличающийся тем, что при ранжировании используется ранг сайта в системе, ранг документа внутри сайта, а также изменение ранга сайта для системы в целом;

разработан алгоритм анализа и обработки мультилингвистической информации, позволяющий эффективно формировать частотные словари как для структурированных, так и неструктурированных языков.

Значение для теории: теоретически обоснована возможность применения метапоисковой технологии автоматизированного формирования мультилингвистического информационно-

терминологического базиса для систем адаптивного обучения терминологической лексике.

Результаты, полученные при выполнении диссертационной работы, создают теоретическую основу как для повышения эффективности функционирования адаптивных систем обучения, так и для улучшения качества компьютерной обработки информации при формировании информационно-терминологического базиса данного класса систем. Это возможно в рамках нового направления в метапоисковой технологии анализа и обработки информации в Internet, основанного на коллекциях узкоспециализированных мультилингвистических частотных словарей.

Практическая ценность. Разработанные в диссертации программные системы поиска и формирования частотных словарей поддержки мультилингвистической адаптивно-обучающей технологии применены при создании компьютерных интерактивных средств изучения профессионально-ориентированной иностранной лексики на базе системы "Virtual Teacher 1.2".

Использование мультилингвистической информационной базы и ассоциативных параметров мультилингвистической модели способствует эффективному применению алгоритма обучения, позволяя при этом интенсивно пополнять иностранный профессионально-ориентированный словарный запас. Предложенная модель поиска и определения релевантности предметной области включена в модель поисковой подсистемы АСУ ГУЦМиЗ.

Использование системы позволяет:

эффективно формировать и актуализировать информационно-терминологический базис адаптивно-обучающей технологии;

интенсивно пополнять иностранный профессионально-ориентированный словарный запас при использовании новой структуры многоязычного информационно-терминологического базиса

мультилингвистической адаптивно обучающей технологии.

Реализация результатов работы.

Разработанная автором диссертации компьютерная система обучения принята в опытную эксплуатацию на кафедре информатики Красноярского государственного технического университета, в Государственном университете цветных металлов и золота, в корпоративном университете РУСАЛа при обучении студентов по курсам "Системный анализ", "Проектирование информационных систем", "Открытые системы, сети и телекоммуникации" и "Интеллектуальные информационные технологии".

На представленные разработки получен сертификат, подтверждающий авторские права, в федеральной службе по интеллектуальной собственности, патентам и товарным знакам Российской Федерации № 2005620057 от 21.02.2005.

Две авторские разработки прошли регистрацию в отраслевом фонде алгоритмов и программ:

- № 02067913.00022-01. Per. № ОФАП 3818 от 09.03.2004 г.

- № 03534577.00913-01. Per. № ОФАП 4359 от 03.02.2005 г.

Основные тезисы, выносимые на защиту

1. Разработанный алгоритм и методика формирования мультилингвистических частотных словарей, основанная на использовании Internet ресурсов и средств метапоисковой технологии, позволяет повысить скорость построения информационно-терминологического базиса и превосходит по эффективности существующие методики.

2. Разработанный мультилингвистический частотный словарь администратора системы позволяет ускорить процесс актуализации словарей пользователя, структурирующих рабочую информацию.

3. Предлагаемые принципы работы алгоритмов и процедур поиска информации и составления словарей администратора и пользователя системы обучения обеспечивают эффективную и комплексную информационно-алгоритмическую поддержку мультилингвистической адаптивно-обучающей технологии.

4. Адаптация существующей системы обучения к новой структуре словаря пользователя обеспечивает языковую универсальность системы обучения.

5. Использование мультилингвистических частотных словарей в рамках предлагаемых алгоритмов и процедур поиска и ранжирования информации повышает эффективность сетевых поисковых систем, реализующих процедуры определения релевантности и ранжирования

электронных документов.

Апробация работы. Основные положения и результаты работы прошли всестороннюю апробацию на всероссийских и международных конференциях, научных семинарах и научно-практических конференциях. В том числе:

на второй региональной научной конференции «Формирование информационного общества на рубеже XX-XXI веков»;

на всероссийской научно-практической конференции «Воспитание молодого российского интеллигента: проблемы, тенденции, пути решения»;

на V всероссийской очно-заочной научно-практичной конференции «Интеграция методической работы и системы повышения квалификации кадров»;

на международной открытой научной конференции «Современные проблемы информатизации в технике и технологиях»;

на XIV международной конференции выставке «Информационные технологии в образовании» (Москва 2004 г.);

на международной конференции «14th IST Mobile & Wireless Communications Summit» (Дрезден - Германия 2005 г.).

Диссертационная работа в целом обсуждалась на научных семинарах кафедры Информационных технологий Государственного Университета Цветных Металлов и Золота (2002-2005 гг.), семинарах НИИ СУВПТ (2002-2005 гг.), кафедры Информатики Красноярского Государственного Технического Университета (2003-2005 гг.), совместных семинарах международных отделов КГТУ и ГУЦМиЗ.

Основные результаты исследований были отмечены следующими научными грантами:

грант ГУЦМиЗ по системе автоматизации процесса обучения (2003-2005 гг.);

грант SITE project - «Siberia, Information Technologies and Europe» ITS-004123 (2005 г.).

Публикации. Основные результаты диссертационной работы опубликованы в 15 работах автора (7 из них - статьи), список которых помещен в конце автореферата.

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка литературы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и решаемые задачи, выдвигаются основные защищаемые положения, определена научная новизна результатов и их практическое значение.

В первом разделе рассмотрена история развития средств компьютерной поддержки процесса обучения, современные компьютерные средства обучения иностранным языкам, проведен их анализ. Сделан обзор разработок различных организаций и независимых исследователей в области информационных технологий обучения.

Раскрыто понятие мультилингвистической адаптивно-обучающей технологии.

В результате анализа проблемной области удалось выявить следующие группы проблем:

• Комплекс программного обеспечения средств обучения включает в себя программы, позволяющие компьютеризировать организацию процесса обучения (например, базы данных), программы, используемые для подготовки учебных материалов (в частности, инструментальные программы) и программы, предназначенные непосредственно для процесса обучения. Автоматизированную обучающую систему можно обозначить как комплекс средств, обеспечивающий функционирование обучающей программы и позволяющий производить разработку и расширение баз данных. Однако практически все данные комплексы направлены на изучения языка в целом, а не на пополнение словарного запаса в определенной предметной области.

• Отсутствие индивидуализации процесса обучения. Как правило, компьютерные обучающие системы являются простым переложением бумажных учебников в электронный вид. Такой подход не учитывает индивидуальные особенности обучаемого и, тем самым, процесс обучения является неэффективным.

• Отсутствие мультилингвистических частотных словарей. Если ряд авторов и использует частотные словари то это, как правило, словари одноязычные. До исследований в Красноярске (КГТУ, СибГАУ, ГУЦМиЗ) мультилингвитические частотные словари не применялись. Однако их разработка выявила неоднородность однотипных терминов внутри разных языковых множеств.

• Отсутствие единой методологии формирования мультилингвистических частотных словарей, особенно остро проблема стоит при формировании словаря, содержащего более трех языков.

• Отсутствие решения проблемы учета однородных (однокоренных) слов и связок устоявшихся словоформ, таких как "из-за", "друг другу" и т.п. при формировании словаря.

• Отсутствие единого стандарта на частотные словари.

Отмечено, что компьютерные средства обучения могут

использоваться как при самостоятельном освоении языка, так и в рамках организованного учебного процесса по какой-либо образовательной программе.

В диссертационной работе вводится понятие информационно-терминологического базиса, который играет важную роль при изучении узкоспециализированной терминологической лексики. Рассматривается организация этого информационно-терминологический базиса таким образом, чтобы автоматизированные средства могли работать с ним, используя современные компьютерные системы.

Второй раздел посвящен анализу работы всемирной сети Internet, которая предназначена для хранения информации во всех ее проявлениях,

начиная с элементарных электронных текстовых документов и заканчивая Audio и Video информацией. Для тематики данной диссертационной работы наиболее актуальной является текстовая информация. Был проведен анализ хранилищ данной информации и методов ее организации в сети.

В результате анализа выявлено следующее:

• Пользователи Internet не в полной мере умеют использовать возможности поисковых сервисов, предоставляемыми сайтами сети. Данная проблема стоит очень остро. Для ее решения большинство поисковых сайтов пытаются выдавать информацию с использованием рангов, которые показывают степень релевантности выдаваемой информации запросу пользователя.

• Пользователи не могут в полной мере (согласно своим потребностям) составить запрос для поисковой системы. Данная проблема приводит к потере необходимой информации и, как следствие, к неудовлетворенности сетью Internet.

• Проблема огромного роста объемов информации, выкладываемой в Internet. Решение данной проблемы связанно с умением пользователей Internet правильно индексировать свои страницы в сети. К сожалению, некоторые пользователи не индексируют свои страницы вообще и поэтому их невозможно найти (если не известен точный адрес), что ограничивает работу поисковых машин. И вторая проблема, относящаяся к данному пункту, - это, наоборот, очень хорошее знание принципов работы поисковых машин, и недобросовестное использование данных знаний для того, чтобы получать более высокий индекс (ранг), а значит повысить число пользователей, посещающих данную страницу.

В данном разделе проведен анализ существующих поисковых систем, которые можно классифицировать следующим образом, см. рисунок 1.

Необходимо отметить, что тенденция развития поисковых систем сводится к образованию смешанных систем, т.е. поисковые машины организуют внутри себя каталоги и наоборот каталоги начинают обзаводиться поисковыми агентами. Особый интерес вызывает региональное деление поисковых систем. Это связано с тем, что большинство информации, принадлежащей к одному языковому множеству, содержится на одноименных именах доменов верхнего уровня. Например, домен верхнего уровня «.ги» практически на сто > процентов содержит русскоязычную информацию. Учитывая такое

ограничение, большинство поисковых серверов при индексации документов и работе поисковых агентов (роботов, пауков) используют только данный домен. Однако можно заметить, что существуют так называемые интернациональные домены, такие как «.com», «.org». Проблема при поиске информации состоит в том, что данный сегмент информации может быть потерян.

Рисунок 1 - Классификация поисковых систем Internet.

Следующим этапом развития поискового сервиса в Internet является организация метапоисковой технологии. Она базируется на работе нескольких поисковых сервисов, в связи с чем результат ответа Internet становится более качественным с точки зрения объема получаемой информации, которая может быть релевантной запросу пользователя. Принципы построения подобных систем можно представить следующим образом, см. рисунок 2.

Не менее интересные результаты получены при анализе работы поисковых роботов. До сих пор нет жесткого стандарта как принципов работы, так и содержания функций подобных систем. Можно только сказать, что все они стремятся вести инновационные разработки по алгоритмам поиска и ранжирования информации, что в свою очередь ведет к улучшению качества поиска с точки зрения определения релевантности информации предметной области запроса пользователя.

Наиболее распространенный вид работы поискового сервиса можно представить в виде трех частей:

• Spider (он же Crawler, он же Bot, он же Robot) - программа, которая посещает Web-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, каждый месяц) и индекисрует страницу снова.

• Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское вместилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных Spider-ом страниц.

• Программа, которая в соответствии с запросом пользователя

перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает в порядке убывания релевантности найденные документы.

Поисковая система 2

Рисунок 2 - Принцип работы метапоисковой технологии.

Необходимо отметить, что в классическом понимании метапоисковые сайты не имеют своих роботов (Spider-ов).

Третий раздел посвящен моделям и алгоритмам поиска, ранжирования и определения релевантности информации.

Обобщение процедуры поиска информации в любой поисковой системе можно представить в виде работы нескольких агентов:

• отслеживание существующих ссылок;

• анализ страниц на наличие ссылок на другие страницы;

• поиск информации по новым ссылкам, полученным при анализе текстов;

• просмотр новых страниц, которые регистрирует хозяин нового ресурса.

В метапоисковой технологии можно выделить два наиболее часто встречаемых агента:

• опрос нескольких поисковых сайтов;

• ранжирование полученной информации.

Для того, чтобы начать рассматривать поиск информации в Internet, необходимо четко понимать, что все пространство Internet можно представить как направленный граф, где каждая страница - это вершина графа (узел), а ссылка на другую страницу - связь между вершинами

(Дуга).

Рассмотрим подробнее алгоритмы ранжирования информации. Под ранжированием будем понимать порядок вывода информации конечному пользователю системы таким образом, что наиболее достоверная (релевантная) информация будет находиться в начале списка.

В настоящее время ведутся активные работы по построению подобных алгоритмов. Можно выделить алгоритм PageRang, который в чистом виде является теоретическим, что связано с необходимостью просчитывать все вершины графа в единицу времени. Учитывая, что это практически невозможно осуществить, предлагается просматривать не весь Internet, а только часть его, связанную с данной страницей по следующей схеме:

• Обычной поисковой системе посылается запрос и из ответа извлекается к первых результатов (у проф. Клейнберга к=200). Полученный таким образом набор ссылок (страниц) называется RootSet.

• К страницам из RootSet добавляются их ближайшие соседи, т.е. те страницы, на которые ссылаются страницы из RootSet, и те, которые сами имеют ссылки на страницы RootSet. Для поиска последних тоже используется поисковая система, причем берется не более d входящих ссылок на одну страницу (у Клейнберга d=50). Так строится BaseSet (см. рисунок 3)._

RootSet

BaseSet

Рисунок 3 - Построение BaseSet.

Далее работают уже только с BaseSet, точнее, с графом, который он естественным образом порождает, а не со всей сетью Internet. При этом из графа выбрасываются все внутридоменные ссылки, т.е. те, которые соединяют страницы в пределах одного сайта. Это простейшая эвристика

для подавления навигационных ссылок. Но еще более важная идея состоит в том, что предлагается рассматривать две разные ипостаси Web-страницы: страница как посредник, набор ссылок, и страница как первоисточник собственно информации. Соответственно, для каждой страницы рассчитываются не один, а два ранга. Такой подход обусловлен наличием в Internet большого числа сообществ, т.е. наборов страниц близкой тематики, которые весьма сильно связаны друг с другом ссылками. Типична картина, представленная на рисунке 4.

Рисунок 4 - Пример сообщества. Слева - посредники, справа -первоисточники.

Ранг страницы как посредника тем выше, чем выше ранги первоисточников тех страниц, на которые она ссылается, а ранг первоисточника аналогичным образом зависит от посреднических рангов страниц, ссылающихся на нее.

Идеи проф. Клейнберга подвигли ряд исследователей на модификацию предложенных им алгоритмов. Это характерно для таких систем, как:

1. Система CLEVER.

2. Эвристики Бхарат-Хенцингер.

3. PHITS.

4. Объектная модель документа С. Чакрабарти (S. Chakrabarti).

Более подробно с ними можно ознакомиться в рукописи.

К одним из последних исследований в области ранжирования информации можно отнести работу И.С. Некрестьянова. Однако если модифицировать рассматриваемые алгоритмы с учетом формируемых мультилингвистических частотных словарей, то можно добиться повышения качества работы алгоритмов за счет ускорения процесса обработки информации и увеличения точности выдаваемого результата. Предлагается следующая модель ранжирования.

1. Модель поиска информации сразу по нескольким языкам.

Данная модель применима при опросе Internet в разных языковых

сегментах одновременно. В результате получается множество ссылок на разноязычные документы Далее необходимо провести отсев

дублирующихся ссылок. Следующим шагом вычисляется вес ссылки на документ.

Таким образом, результат каждого запроса может быть представлен в виде г-мерного ранжированного вектора:

—.&/

с!у ==(Кап%Оос ,1к1щВос^ ,...,Яап$Оосг ),

НапеВос^ = £(Яаи#й/г0, ♦ МпфИеОос^ ) • Оос^ , м

где

/ номер опрашиваемого сайта (г = 1,...,п), и количество опрашиваемых сайтов,

у номер ссылки из множества ссылок, выданных всеми опрошенными поисковыми сайтами, без дублей (/ = 1,...,т), т количество ссылок без повторений, у номер языкового множества (у = /,...,г), г количество опрашиваемых языковых множеств, Кап%Рос0 - получаемый рантуй страницы к-го языкового множества, RangSite0, - ранг ¡-го сайта в текущей предметной области к-го языкового множества на данный момент времени,

RangSiíeDoc,y - ранг ссылки на страницу внутри ьго поискового сайта к-го языкового множества.

Переменная Оос,у является булевой и принимает значение равное 1, если сайт дал ссылку на данную страницу, и равное 0, если ссылка на /-м сайте отсутствует.

Ранг сайта по каждой предметной области определятся по следующему алгоритму:

• при первом проходе Яап^Бие^ = О,

• в процессе опроса каждого сайта ранг изменяет свое значение по формуле:

RangSitely = Яа^БЫеу + (ОосЯе1Ша1,у - ВосТ4ыКе1То1а1,у)/иосТо1а11у,

где

ОосКе1То1а11у - количество релевантных документов, выданных г-м поисковым сайтом,

ОосЫо1Ке1То1а1,у - количество не релевантных документов, выданных ;-м поисковым сайтом,

ОосТоХа1,у - общее количество документов. ОосТоШ1,у = ОосЯе1То1а1,у + ОосМо(Ке1То1а1,у.

Ранг ссылки на страницу внутри множества ссылок, выданных каждым конкретным сайтом, определяется по формуле: RangSiteDocly = ЫитОос1у - йосТо1а11у.

2. Если необходимо проводить поиск только в пределах одного языкового множества, то в предложенной модели ранжирования необходимо принять у = 1.

3. Если ввести индекс д, отвечающий за предметную область, то полученная модель будет производить поиск и ранжирование сразу для нескольких предметных областей. Необходимо отметить, что сумма всех неповторяющихся ссылок всех опрашиваемых предметных областей будет меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей или наличием так называемых смежных предметных областей.

Необходимо отметить, что в предлагаемой модели все ранги должны быть не меньше, чем единица.

Также предлагается модификация алгоритма определения релевантности документа предметной области. В них при использовании мультилингвистических частотных словарей значительно повышается качество (точность) работы алгоритмов.

В рамках этой модели каждому терму (словоформе) в документе ^ (и запросе д) сопоставляется некоторый неотрицательный вес (и-, для запроса на один поисковый сайт). Таким образом, каждый документ и запрос может быть представлен в виде ¿-мерного вектора:

Л •"к]),

где к — общее количество различных термов во всех документах.

Согласно векторной модели, близость документа ^ к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами, предлагается использовать в качестве веса терма и>у в документе 4 нормализованную частоту его использования]гецч в рамках данного документа, т. е.: ^.

»»—С»"-;--

шах, /геду

При поиске, используя мультилингвистические частотные словари, для вычисления целесообразно использовать частотную характеристику терма из словаря /гедИгс/. Щ =/г ед01су.

В данной формуле ¡гецВ1с]] ,..., /гедИк^ равны, т.к. веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря.

Однако этот подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е. дискриминационную силу терма. Поэтому в случае, когда доступна статистика использований термов по коллекции, лучше работает другая схема вычисления весов:

п,

где п, обозначает число документов, в которых используется терм а N -общее число документов в коллекции.

Предложенный алгоритм отлично работает на этапе формирования мультилингвистического частотного словаря, однако, после того, как он был составлен и возникает необходимость в его актуализации или обновлении, в качестве весового коэффициента более целесообразно использовать весовой коэффициента каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре. Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом веса термов из словаря:

-.def

doCj =(wdocxj,wdoc1j, -.,wdoci[j),

-'def

diej ==(wdicl j, wdic2jwdiCM]) , где

wdoCij = w,j*g,j, wdici =frecDici*gi, где

/ - номер терма ву'-м документе (/=7, ...,к), I- номер терма в частотном словаре,(/=/, ...,kd), wdoc,j - вес i - го терма ву'-м документе, wdici - вес / - го терма в частотном словаре,

булевы переменные gu и gi - признак включения терма в вектор для определения релевантности документа, если терм не релевантен предметной области, то признак равен 0, в противном случае 1.

Вектора wdocy и wdici имеют разные размерности, что связано с ограничением словаря, в котором только релевантные термины. Следовательно, возможность равенства gi нулю возможна только в случае устаревания какого-то термина на столько, что он полностью вышел из употребления.

Необходимо отметить, что в процессе составления данных векторов необходимо привести их к одной размерности и упорядочить веса по принадлежности к одному терму, для этого можно работать в обоих векторах с g и при равенстве g нулю, терм из вектора исключать.

После приведения векторов к одной размерности / и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор С:

—def

с j =(relXj,rel2j,...,reIeJ), где е - размерность векторов весов,

wdocjj - wdicj

wdocy + wdic,

Необходимо отметить, что в идеале ге1,] должен быть равен единице.

Если:

v = ^ге1ц Iе < s' 1=1

где s пороговая величина, принимается решение о релевантности документа dj предметной области.

В идеале v стремится к нулю.

После того как была разработана модель поиска, ранжирования и определения релевантности информации, необходимо было реализовать систему, на базе которой была проведена апробация предлагаемых моделей и алгоритмов.

Четвертый раздел посвящен описанию системы, реализующей данные модели и алгоритмы и предназначенной для формирования мультилингвистического информационно-терминологического базиса адаптивно-обучающей технологии.

С учетом целей данной диссертационной работы, необходимо было построить две логически связанные программные подсистемы:

1. Первая подсистема отвечает за поиск "качественной" информации в Internet, кроме того, данная подсистема должна производить определение релевантности документов из тематических каталогов, причем в результате проведения анализа предметной области были сделаны следующие выводы. В классическом понимании релевантности данная характеристика является булевой (документ принадлежит запросу или нет), однако после анализа текстов можно прийти к выводу, что это не совсем так. А именно, применяя алгоритмы определения релевантности, можно доказать, что некоторые документы являются «как бы более релевантны» запросу, а некоторые менее (этим и занимаются алгоритмы ранжирования). Однако, так же выявлены условно релевантные документы - это документы из смежных предметных областей. Следовательно, при поиске необходимо учитывать возможность попадания в результирующую выборку данных предметных областей. Учитывая близость данных областей, необходимо учитывать их выбор пользователем системы на включение и исключение в результирующую выборку. Кроме того, в выбранном тексте релевантным предметной области может быть не весь документ, а только часть его, например, учебники общего назначения, сборники статей и т.д.

2. Вторая подсистема отвечает за автоматизацию процесса формирования мультилингвистического частотного словаря путем анализа разноязычных текстов.

Алгоритм работы системы поиска укрупнено представлен на рисунке 5.

Contex Поиск мультилингвистической информации • Internet

Словарь администратора системы

Запросы

Пользователь

Актуализация существующего

мультилиигвисти ческого словаря

Создание нового

мультилиигвисти ческого словаря

1 *

Документы

Нахождение текстов для словарей

Запросы

Определение релевантности документов

Релевантные

и условно релевантные документы

Ссылки и документы

Система работы с мультилиигвисти

частотными словарями

Рисунок 5 - Процесс поиска мультилингвистической информации.

Как видно из диаграммы, работа со словарями может начинаться как с целью составления нового словаря, так и для актуализации или, другими словами, обновления существующего словаря. Необходимо организовать работу системы с двумя словарями: словарем администратора системы, предназначенным для работы администратора и содержащим дополнительную информацию для построения словарей, и частотным мультилингвистическим словарем, который и является словарем конечного пользователя системы обучения. Частотный словарь при поиске используется для расчета частотных характеристик, необходимых для определения релевантности документа, а также в процессе автоматического формирования строки запроса. На текущий момент времени Internet является самым обширным и доступным хранилищем всевозможной информации, поэтому на первом этапе работы с системой необходимо произвести опрос нескольких поисковых сайтов для каждой языковой принадлежности, определенной условиями задания (принцип работы метапоисковых систем). Например, для русскоязычного поиска можно использовать сайты YANDEX, RAMBLER и др.; в результате опроса будут получены ссылки на документы, считаемые каждым из опрошенных сайтов, релевантными запросу. На следующем шаге необходимо произвести отсев не релевантных ссылок, и на выходе будет получено множество условно релевантных документов. В дальнейшем каждый документ проверяется на степень релевантности текста предметной области словаря, и в итоге формируется набор документов, релевантных предметной области словаря, с помощью которых проводится работа по формированию, пополнению или актуализации самого частотного мультилингвистического словаря. Рассмотрим более подробно каждый из перечисленных этапов. На рисунках 6 и 7

представлены модели нахождения текстов и определение релевантности соответственно.

1 Наюядми« тисто» для слоаций

мультилиписти чкаге словаря

Мупьтилияисмчес

Опрос юмолмих

^)МИИИС1рвТ0р

Специалист лрщмтмк

Муяцмдяимстшсш

Сл.т^и вдммктротсра Слисок и смит—сис

«вгмрующиивя ссиш

мультилиилисти

сдоспуюи*« М||!МНЯМНЯИСЯШОЙЦ

Рисунок 6 - Нахождение текстов в Internet,

^^^^^^^¿Ongggejww^enegatm^

8-1 Словарь администратора

системы

Отклик

Запросы

1 7

Окончательный отбор ссылок и получение документов Администратор Система Специалист предметник

Документы

21*

Анализ документов

используя частотный словарь

Система Администратор

Условно релевантные документы

Условно релевантные и нерелевантные документы

Визуальный анализ и отсев нерелевантных

_документов_

Специалист предметник

Релевантные

Система работы с мультиликгвисги

частотными словарями

Рисунок 7 - Работа с релевантностью документов. После того как необходимые тексты были найдены, выполняется этап

составления или актуализации частотного мультилингвистического словаря.

Предлагаемый алгоритм работает как с текстами, предложенными системой поиска информации в Internet, так и с произвольными текстовыми коллекциям, что является естественным, и связано с возможностью актуализации или построения нового словаря из имеющейся тематической коллекции. На верхнем уровне детализации можно выделить четыре процесса, предназначенных для работы со словарем (рисунок. 8): сбор сведений о языке, анализ текста, редактирование языкового множества, сопоставление и перевод.

Кроме того, необходимо отметить, что на этапе перевода слов и словосочетаний (термы) возможно подключение внешнего словаря переводчика, повышающего скорость перевода единиц текста. В качестве тематической коллекции может участвовать произвольное количество электронных текстов (книги, журналы, статьи и прочие источники), принадлежащих предметной области и требуемому языковому множеству. Причем возможна работа как с текстами из Internet, так и из тематической коллекции одновременно.

Рисунок 8 - Contex процессы системы анализа работы со словарем.

В заключении сформулированные основные результаты и выводы, полученные в диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Впервые реализованы алгоритмы поиска, ранжирования и определения релевантности исходной информации для формирования мультилингвистических частотных словарей.

2. Рассмотрены и апробированы процедуры применения частотных словарей для поиска узкоспециализированной информации в Internet, позволяющие производить более детальный поиск при максимальном

охвате заданного сегмента Internet. Применение частотных словарей позволило более точно определять релевантность предметной области в среднем на 15%.

3. Разработан и реализован алгоритм обработки исходной информации для формирования частотных мультилингвистических словарей терминологической лексики, позволяя тем самым более адекватно и быстро (в два раза быстрее при поиске информации и на треть быстрее при формировании частотных словарей) рассчитывать частотные характеристики лексем.

4. В рамках предложенной структуры системы показана необходимость использования при работе с частотными словарями словаря администратора. В системе анализа текста и поиска необходимо произвести работы по разграничению словарей на два типа: пользователя и администратора.

5. Модифицирована существующая система адаптивного обучения с учетом новой структуры мультилингвистического информационно терминологического базиса в виде многоязычных частотных словарей, что позволяет вести процесс обучения более эффективно по сравнению с предшествующими моделями, т.к. при обучении устраняются ошибки при обратных проходах в термах.

6. Показано, что использование мультилингвистического информационно-терминологического базиса для поисковых технологий в сети Internet повышает эффективность сетевых поисковых сервисов, при определении релевантности и ранжировании информации.

Таким образом, в данной диссертационной работе решена задача автоматизации формирования информационного базиса систем адаптивного обучения терминологической лексике, имеющая существенное значение для теории и практики задач анализа и обработки мультилингвистической информации.

Перспективным направлением является дальнейшее развитие предлагаемых методик определения релевантности и ранжирования информации в поисковых сервисах сети Internet.

Основные результаты диссертационной работы опубликованы в следующих работах:

1. Зеленков, П.В. Автоматизация формирования информационно-терминологического базиса мультилингвистических обучающих технологий/И.В. Ковалев, П.В. Зеленков//Телекоммуникации и информатизация образования. - №3 (28), 2005. - С. 68-82.

2. Зеленков, П.В. Программная система «Multi-BasisOptimization vi .0»/Ковалев И.В., Зеленков П.В., Огнерубов С.С., Ежеманская С.Н.// Компьютерные учебные программы и инновации. - №7,2005. - С. 20-21.

3. Зеленков, П.В. Оптимизационная модель формирования информационно-терминологического базиса обучающих технологий. / Огнерубов С.С., Зеленков П.В.// Вестник университетского комплекса: Сб. научн. Трудов / Под общей ред. Профессора Н.В. Василенко;-Красноярск: ВСФ РГУИТП, НИИ СУВПТ. - 2005. - Вып. 3 (17) - С. 229-

4. Зеленков, П.В. Алгоритм формирования информационного базиса мультилингвистической адаптивно - обучающей технологии / П.В. Зеленков, Т.А. Ковалева// Вестник НИИ СУВПТ: Сб. науных трудов / Под общей ред. профессора Н.В. Василенко. - Красноярск: НИИ СУВПТ. -2003.-Вып. 11.-С. 185-190.

5. Зеленков, П.В. Мультилингвистическая адаптивно - обучающая технология для индивидуальной языковой подготовки специалистов/ П.В. Зеленков, Т.А. Ковалева// Вестник НИИ СУВПТ: Сб. науных трудов / Под общей ред. профессора Н.В. Василенко. - Красноярск: НИИ СУВПТ. -2003.-Вып. 12.-С. 160-169.

6. Зеленков, П.В. Проблема развития метапоисковых технологий/ П.В. Зеленков, Т.А. Ковалева// Вестник НИИ СУВПТ № 14: Сб. науных трудов /Под общей ред. профессора Н.В. Василенко. - Красноярск: НИИ СУВПТ. -2004. - Вып. 14. - С. 95-103.

7. Зеленков, П.В. Мультилингвистическая адаптивно-обучающая технология изучения иностранных языков / П.В. Зеленков, О.С. Ступакова// Перспективные материалы, технологии, конструкции, экономика. - Красноярск: ГУЦМиЗ. - 2005. - С. 78-82.

8. Зеленков, П.В. Формирование языковой грамотности у молодого российского интеллигента /П.В. Зеленков, Ю.Н. Гришкова, H.A. Качусова// Материалы III всероссийской научно-практической конференции «Воспитание молодого российского интеллигента: проблемы, тенденции, пути решения», - Красноярск: СибГТУ, 2003. - С. 47-50.

9. Зеленков, П.В. Мультилингвистическая среда информационно-образовательного взаимодействия /П.В. Зеленков, И.В. Ковалев, H.H. Джиоева// Материалы V всероссийской очно-заочной научно-практичной конференции «Интеграция методической работы и системы повышения квалификации кадров». - Челябинск: Южно-Уральск. гос. ун-т, 2003. - С. 99-101.

10. Зеленков, П.В. Мультилингвистическая адаптивно-обучающая технология для обеспечения доступности информационных ресурсов. /П.В. Зеленков, И.В. Ковалев, A.A. Ступина// Сборник трудов по результатам IX международной открытой научной конференции «Современные проблемы информатизации в технике и технологиях». -Воронеж:ВорГТУ, 2004. - С. 234-235.

11. Зеленков, П.В. Автоматизированная система управления ВУЗом /П.В. Зеленков, Г.И. Васина, М.Н. Бердникова// Сборник трудов участников конференции - выставки «ИТО-2004» - Москва: МИФИ, 2004. -С. 202-203.

12. Zelenkov, Р. Multilingual Adaptive Method of Learning Foreign Languages /Р. Zelenkov, E.Kofman// труды международной конференции «14 IST Mobile & Wireless Communications Summit». Дрезден - Германия: Technische Universität Dresden, 2005г. - C.228-233.

Сертификат о регистрации авторских решений:

13. Зеленков П.В., Замараева И.А., Борисов А.В., Васина Г.И. Управление учебным процессом ВУЗа. Свидетельство (патент) об официальной регистрации программы для ЭВМ № 2005620057 от 21.02.2005. по заявке № 2003612564 от 25.12.2004.

Авторские разработки, прошедшие регистрацию в отраслевом фонде алгоритмов и программ:

14. Зеленков П.В., Ковалев И.В., Огнерубов С.С., Ежеманская С.Н. Программная система «Multi-BasisOptimization vl.0» (Оптимизация информационно-терминологического базиса мультилингвистической обучающей технологии). - М.: ВНТИЦ, 2004. - № 02067913.00022-01, Per. № ОФАП 3818.

15. Зеленков П.В., Ковалев И.В., Ковалева Т.А., Карасева М.В. Автоматизированный построитель частотных многоязычных словарей (Computer-Based Builder Dictionary vl.0). - М.: ВНТИЦ, 2005. - № 03534577.00913-01, Per. № ОФАП 4359.

**78 Ю

РНБ Русский фонд

2006-4 15557

Зеленков Павел Викторович Автоматизация формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике

Автореферат

Подписано в печать 24.09.05 Формат 60x84/24. Бумага писчая. Уч. изд.л.1. Тираж 100 экз. Заказ № 42 Отпечатано на ротапринте НИИ СУВПТ

Похожие работы

Информатика, вычислительная техника и управление
05.13.00