автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Автоматизация построения гипертекстовых систем на основе текстовой информации тезаурусным методом

кандидата технических наук
Холодова, Светлана Анатольевна
город
Москва
год
2002
специальность ВАК РФ
05.13.06
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизация построения гипертекстовых систем на основе текстовой информации тезаурусным методом»

Оглавление автор диссертации — кандидата технических наук Холодова, Светлана Анатольевна

Введение.

1. Глава 1.

1.1 Понятие и соотношение текста, гипертекста и тезауруса.

1.2. Обзор существующих гипертекстовых систем.

1.3. Определение этапов построения гипертекста.

1.4. Обзор существующих методик автоматизации формирования гипертекстов в целом и методик для каждого из этапов формирования.

1.5. Анализ существующих гипертекстовых систем и методов их построения.

1.6. Постановка задачи.

Выводы по первой главе.

Глава 2.

2.1. Концептуальная модель текста и гипертекста и тезауруса в ракурсе преобразования первого во второй с использованием третьего и ее математическое описание.

2.2. Автоматизация выделения терминов предметной области из текста при наличии тезауруса предметной области.

2.3. Построение частного тезауруса при наличии общего.

2.4. Условия возможности построения гипертекстовой системы по частному тезаурусу.

2.5. Ограничение применения методики с точки зрения целесообразности.

2.6. Требования, предъявляемые к частному тезаурусу. Выводы по второй главе.

Глава 3.

3.1. Методики и алгоритмы автоматизированного построения гипертекстовой системы на основе текста тезаурусным методом.

3.2. Построение списка ключевых терминов.

3.3. Построение общего тезауруса с коррекцией словаря ключевых терминов.

3.4 Отыскание информационных статей терминов.

3.5. Формирование гипертекстовых ссылок . Выводы по третьей главе.

Глава 4.

4.1. Программный комплекс TG.

4.2. Структура программного комплекса.

4.3. Получение входных данных.

4.4. Формирование частного тезауруса.

4.5. Исследование влияния параметров функций семантических полей на достоверность выборки.

Выводы по четвертой главе.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Холодова, Светлана Анатольевна

Автоматизированные системы обработки информации и управления в различных отраслях, и в частности, в полиграфии, как правило, имеют своей составляющей программную компоненту, обеспечивающей автоматическое получение системой информации от датчиков, если такое взаимодействие возможно, реализующую принятие управленческих решений в той части, в какой они могут быть приняты автоматически, и обеспечивающую дружественный интерфейс с пользователем системы с целью либо запроса дополнительной информации, на основе которой системой может быть принято управленческое решение, либо с целью получения управленческого решения от эксперта (пользователя системы) в случае автоматизированного принятия решений системой.

Сами системы автоматизированного управления технологическими процессами и обработки информации, а также их программное обеспечение достаточно сложны. Для сопровождения, модернизации, диагностики такие системы нуждаются в лингвистическом обеспечении, позволяющем пользователю или разработчику понять принципы функционирования системы, а также освоить основные приемы работы с ним.

В настоящее время распространено два вида лингвистического обеспечения систем автоматизированного управления технологическими процессами и обработки информации.

1. Технологическая документация, выполненная на бумажном носителе.

2. Технологическая документация, представленная в электронном виде.

Технологическая документация, выполненная на бумажном носителе, традиционна, она является обязательной составляющей любой автоматизированной системы обработки информации и управления. 5

Помимо технологической документации, выполненной полиграфическим способом, на сегодняшний день большинство создателей автоматизированных систем обработки информации и управления технологическими процессами представляют лингвистическое обеспечение системы также и в электронном виде. При этом электронные версии в большинстве случаев гораздо более популярны у пользователей, чем их полиграфические аналоги.

Причины этих тенденций следующие:

1. Использование как минимум персональных компьютеров, а зачастую и сетей, в качестве платформы автоматизированной системы обработки информации и управления, что обеспечивает массовую возможность использования электронных носителей.

2. Относительная дешевизна электронных носителей по сравнению с носителями бумажными, тем значительней проявляющаяся, чем больше (в количестве символов) объем лингвистического обеспечения системы. Поэтому с целью удешевления системы автоматизированной обработки информации или системы автоматизированного управления технологическими процессами разработчики в полиграфической версии технологической документации знакомят пользователя лишь с основными функциями системы, рассматривая второстепенные в электронной версии технологической документации.

3. И третьей немаловажной причиной успешного развития направления электронного документирования лингвистического обеспечения систем автоматизированной

--VJ4,; обработки информации и управления технологическими процессами являются новые возможности автоматического и 6 автоматизированного поиска лингвистической информации, как по включениям в источник, так и семантического, что повышает скорость и уменьшает трудоемкость работы с системой.

К реалиям сегодняшнего дня также следует отнести факт зарождения нового вида полиграфической продукции: электронных изданий, технологическая документация автоматизированных систем' управления и обработки информации является одним из видов которых. Существуют технологические процессы создания этого вида полиграфической продукции, ряд этапов этих процессов может быть автоматизирован.

Исследованиям области автоматизации технологических процессов создания электронных версий лингвистического обеспечения автоматизированных систем управления технологическими процессами и шире, автоматизации создания электронных изданий, посвящена данная диссертационная работа.

Актуальность темы.

Справочные системы, являясь подсистемами систем автоматизации технологических процессов, а также электронные издания, выпускающиеся отдельно на компакт-дисках или публикующиеся в сети, отличаются по принципу представления информации от своих же полиграфических аналогов.

Это принципиальное отличие в

1. отсутствии последовательной линейной структуры в представляемой пользователю материале.

2. фрагментировании текстового массива на блоки, по размеру соответствующие эргономическим возможностям отображения монитора,

3. наличии связей s между вышеозначенными текстовыми фрагментами, выражающиеся гиперссылками, то есть 7 возможностью автоматического перехода от термина одного текстового фрагмента, к другому фрагменту, раскрывающему семантику термина перехода. Системы, обладающие описанными свойствами, принято называть гипертекстовыми или гипертекстами.

На сегодняшний день нет единого, признаваемого всеми, работающими в данной области, определения гипертекста. Система может называться гипертекстовой, имея лишь гипертекстовые ссылки внутри единственного линейного текстового фрагмента. Другие исследователи требуют обязательности таких надстроек гипертекстовых систем, как алфавитный указатель и список главных тем.

Однако, с фрагментированием текста или без него, с надстройками или без них, простейшие или качественные сложные, гипертекстовые системы на сегодняшний день стали основой электронных версий как технической документации, так и изданий в самых различных областях науки, промышленности, образования.

Проблема автоматизации проектирования гипертекстовых систем весьма актуальна. Гипертексты являются основой большинства справочных систем программных продуктов, распределенные гипертекстовые системы образуют связанные сайты интернета. Все значительней масштаб электронных изданий, выпускаемых на компакт-дисках. Если в 1994 году количество русскоязычных электронных изданий, присутствующих на рынке, не превышало сотню [38], то к 2000 году каталог русскоязычных коммерческих электронных изданий включает более трехсот наименований [108]. Это и энциклопедии, и учебные пособия, и экспертные системы, и справочники. На рисунке 1 представлена диаграмма, характеризующая рост количества электронных научных публикаций [104]. Косвенно о росте числа электронных русскоязычных публикаций в сети можно судить на основании анализа динамики роста ресурсов Internet в домене .ru. [105](рис. 2).

10 характеристик производительности, то «скорость поиска в гипертексте возросла в 10 раз» [51 стр.169].

Свойства информации, представляемой в электронном виде, а также тенденции развития рынка комплектующих, программных продуктов, электронных изданий и интернет-технологий позволяют сделать предположение, что необходимость создания гипертекстов сохранится и в ближайшем, и в отдаленном будущем. Причем, и это особенно актуально для электронных изданий, семантическая информация, которая должна стать основой проектируемой гипертекстовой системы, зачастую уже представлена в виде книг, журнальных статей по предметной области. И было бы неправильно не использовать ее (разумеется,, если при этом не нарушается закон об авторском праве страны, где издание должно выйти в свет) в качестве основы для написания информационных статей гипертекстов. По утверждению J. Nilsen [121 стр. 173], "в реальном мире мы должны учитывать, что большое количество чрезвычайно полезных текстов уже существуют и могут быть превращены в гипертекст намного дешевле, чем если бы переписывать ту же самую информацию". Если в качестве основы гипертекста использовать некоторый массив текстов по предметной области, а не создавать гипертекстовую систему с нуля, то становится возможной автоматизация части этапов ее проектирования. Для некоторых этапов проектирования гипертекстов на основе текста или частных случаев исходного текста уже сейчас существуют методики автоматизации проектирования, каждая из которых имеет свои особенности. Данная работа представляет собой попытку дальнейшего продвижения в этом направлении.

Главный недостаток, от которого страдают большинство гипертекстовых систем, построенных автоматизированно — ассоциативность связей и сложность семантического поиска необходимой информации в гипертекстовой сети. Причем, большинство работ в этом направлении [124, 96,127] в качестве информационных статей для своих систем использует

11 исходные документы целиком, без редактирования, только путем установки ссылок между частями документов путем использования статистических методов. Результатом такого автоматизированного построения является сетевой в лучшем случае связанный граф, в котором чрезвычайно сложно выделять вершины, с которых надо начать и которыми можно закончить работу с гипертекстовой системой. Как отмечает Якоб Нильсен [121 стр. 173], "лучшие гипертексты не делаются из текста, который первоначально был написан для линейной среды". Столкнувшись с этой проблемой, часть электронных издателей пошли по пути автоматизации авторской деятельности в области усовершенствования сервисных средств, позволяющих избегать повторений, как в семантическом графе, так и при построении информационных статей [113]. Качеством, отличающим гипертекстовые системы ручного построения от построенных автоматизированно, является отражение иерархичности семантики, представляющей предметную область, в структуре гипертекста. Семантический тезаурус предметной области, положенный в основу автоматизации построения гипертекстовых систем, позволит улучшить качество автоматизированно построенных, т.е. наиболее дешевых гипертекстовых систем. Вопрос о стоимости построения семантического тезауруса по предметной области пока еще стоит, но по многим предметным областям уже существуют отраслевые тезаурусы [18, 106, 109], на основе которых могут быть дешево построены семантические, и существуют коммерческие программные продукты, строящие семантические тезаурусы автоматизированно и отраслевые автоматически [47, 62]. ' Ведутся разработки в этой области [19, 64] При расширении области применения семантических тезаурусов цена на программные продукты, реализующие их автоматизированное построение, будет уменьшаться, а само количество семантических тезаурусов увеличиваться.

12

Целью данной работы является:

Автоматизация ряда этапов технологического процесса преобразования текста в гипертекст.

При этом предъявляются требования к качеству конечного продукта не только с точки зрения формальных признаков, как то: структура графа гипертекстовой сети, эргономические характеристики текстовых фрагментов, но и с точки зрения соответствия отношений, выраженных гипертекстовыми ссылками, семантике предметной области, что в конечном итоге определяет качество получаемого программного продукта с точки зрения удобства семантического поиска в нем.

Для достижения поставленной цели ставились и решались следующие задачи:

1. Анализ существующих этапов технологического процесса преобразования текста в гипертекст.

2. Анализ существующих методов автоматизации для технологического процесса преобразования текста в гипертекст в целом и для каждого из этапов отдельно.

3. Выявление ограничений использования для каждого из существующих методов автоматизации.

4. Построение математической модели предметной области.

5. Разработка с учетом предложенной математической модели методик и алгоритмов, реализующих автоматизацию преобразования текста в гипертекст.

6. Определение ограничений использования методик.

7. Разработка программного пакета, реализующего предложенные методики и алгоритмы.

В ходе решения общих задач были решены такие частные задачи как: • Разработка методик автоматизации построения частного тезауруса на основе общего при наличии последнего,

13

• Разработка методик построения частного тезауруса при отсутствии общего.

• Разработка методик коррекции частного тезауруса.

• Определение критерия семантической близости терминов и введение функций, его реализующих.

• Исследование поведения введенных функций семантической близости в зависимости от их параметров.

• Определение оптимальных параметров функций семантической близости терминов.

• Ввод методов повышения производительности предложенных алгоритмов.

Научная новизна.

Научная новизна работы заключается:

1. Во впервые предложенной методике автоматизации технологического процесса формирования гипертекста на основе текста и тезауруса по предметной области.

2. Во впервые предложенном и впервые отраженном в математической модели текста и гипертекста принципе объединения видов семантических связей по их структуро-графообразующим свойствам с целью соблюдения в создаваемой гипертекстовой системе принципа общезначимости при переходе по ссылкам.

3. Во впервые предложенной методике построения, анализа и коррекции частного тезауруса основанной на использовании алгоритмов и утверждений теории графов.

4. Во впервые предложенной методике выделения группы семантически близких терминов, базирующейся на сравнении впервые предложенных нормализованных дискретных функций взаимной встречаемости терминов, аппроксимированных с помощью функций, построенных в

14 предположении, что сила семантического поля термина может быть описана функцией, близкой к функции нормального распределения.

5. Во впервые найденных оптимальных значениях параметров данных функций.

Практическая значимость результатов. Результаты работы могут быть использованы при:

1. автоматизации построения тезаурусов, являющихся основой проектирования гипертекстовых систем, на основе корпуса текстов по предметной области,

2. автоматизации создания гипертекстовых систем на основе корпуса текстов по предметной области и семантического тезауруса.

Результаты работы показали жизнеспособность предложенных в работе математических моделей, методик и алгоритмов, реализующих автоматизированное построение гипертекстовых систем на основе массива текстов по предметной области, что на практике позволит воспользоваться имеющимися в неэлектронном виде текстовыми материалами для создания гипертекстовых систем, и, экономя временные и человеческие ресурсы, создавать гипертекстные системы, обладающие качественной информационно-поисковой иерархической системой типа дерево. Отсюда, внедрение результатов данной работы позволяет сделать экономически более эффективной разработку гипертекстовых систем, впоследствии тиражируемых на CD-дисках или представленных для коммерческого пользования в Internet.

Программные модули программного комплекса автоматизации перевода текста в гипертекст тезаурусным методом использовались при построении гипертекстовой системы «Обслуживание и ремонт РАВ» в ОАО «СММ» в 2002 году в рамках Госконтракта №2СТ-37/629 от 12 февраля 2002г, п.6 ведомости исполнения.

15

Результаты исследований в части методики автоматизации технологического процесса формирования гипертекста на основе текста и тезауруса по предметней; области,; а также методики построения, анализа и коррекции частного тезауруса внедрены рамках разработки эксплуатационной документации для изделий ряда 1НА1-Е, разрабатываемых по теме «Панцирь-С1» в 2002 году в рамках ОКР «Навигационная система для комплекса 96К6-Е».

Основные положения работы.

В ряде случаев, когда существует общий семантический тезаурус предметной области, и текстовый массив, на основе которого предполагается строить гипертекст, имеет семантическую структуру, семантический граф тезауруса которой в ряде узлов и дуг совпадает с общим семантическим тезаурусом предметной области, можно построить автоматизированно некоторую гипертекстовую систему, нуждающуюся в дальнейшем редактировании, структура графа которой основана на тезаурусе предметной области, а информационные статьи являются частями исходного текста.

Качественная гипертекстовая система должна быть построена в соответствии с принципом общезначимости.

В соответствии с данным принципом к частному семантическому тезаурусу предметной области предъявляются определенные (изложенные в работе) требования.

С учетом вышеозначенных принципов и требований математическая модель предметной области (предложенная другими исследователями) должна быть откорректирована.

На основе математической модели предметной области возможна разработка методики, реализующей технологию перевода текста в

16 гипертекст.

Одним из этапов методики, реализующей технологию перевода текста в гипертекст, является построение частного семантического тезауруса на основе оОщего, если он существует, и без него, с использованием только корпуса текстов по предметной области. Данный этап технологического процесса построения гипертекста на основе текста может быть разбит на ряд подэтапов, часть из которых также может быть осуществлена автоматически или автоматизировано.

Предлагаемые методики автоматизации построения частного тезауруса базируются на элементах теории графов, матричном исчислении. Семантическая близость терминов является функцией их совместной (на ограниченном расстоянии) встречаемости по тексту.

В качестве наиболее семантически близких терминов выбираются термины с наибольшими значениями интегралов пересечения функций их семантических полей, то есть вводится критерий семантической близости терминов.

Функции семантических полей строятся в предположении, что семантическое поле термина можно описать функцией, близкой к функции нормального распределения.

На сегодняшний день существует ряд статистическо-лингвистических методов и методов, основанных на использовании теории графов, которые можно также применить на отдельных этапах автоматизации преобразования текста в гипертекст на основе семантического тезауруса.

Разработаны алгоритмы, позволяющие применить существующие и предложенные методики.

Построение гипертекста по тексту не всегда возможно, необходимые условия возможности применения методик оговаривается в диссертационной работе. Это связанность тезаурусного графа, отсутствие в нем циклов по иерархическим связям, наличие единственной висячей вершины.

17

Путем анализа тезаурусного графа можно выявлять отношения, подозрительные на синонимию для случаев существования более 2-х путей между двумя терминами по иерархическим связям.

Программной" комплекс TG, разработанный автором диссертации^®^ позволил программно реализовать ряд методов и алгоритмов, предложенных в работе.

Содержание по главам.

Заключение диссертация на тему "Автоматизация построения гипертекстовых систем на основе текстовой информации тезаурусным методом"

Основные выводы и результаты работы.

1. Проведен анализ и классификация методов решения задачи преобразования текста в гипертекст. Обоснован выбор класса тезаурусных методов для решения задачи, как позволяющий получить наиболее качественный результат.

2. Разработана методика автоматизации технологического процесса формирования гипертекста на основе текста и тезауруса по предметной области

3. Разработана математическая модель предметной области, базирующийся на теории графов, теории множеств и методах матричном исчислении.

4. В терминах математической модели уточнено понятие гипертекста и тезауруса.

5. Предложен принцип объединения видов семантических связей по их структуро-графообразующим свойствам с целью соблюдения в создаваемой гипертекстовой системе принципа общезначимости при переходе по ссылкам.

6. Разработана методика построения, анализа и коррекции частного тезауруса основанная на использовании алгоритмов и утверждений теории графов.

7. Предложена методика пересечения функций семантических полей, позволяющая выделять группы семантически близких терминов.

8. Проведено экспериментальное исследование зависимости значений функций семантической близости от их параметров. Определены оптимальные значения параметров функций семантической близости терминов.

147

Заключение.

Библиография Холодова, Светлана Анатольевна, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Абросов В.И.,Хрусталев Е.Ю. Классификация критериев смыслового соответствия///НТИ сер.2,1977.— №11-12. —С.52.

2. Автомобильная энциклопедия Кирилла и Мефодия, 1998. — Электронное издание. — М.: Кирилл и Мефодий, 1998. — 2 CD-ROM + документация 8с. — № гос. per. 0329800226, 1500 экз.

3. Агеев В.Н. Применение методов библиографического моделирования при работе с гипертекстом. //НТИ, сер.1.— №5,1994.— с.3-8.

4. Агеев В.Н. Семиотический подход к проблеме гипертекста.//Полиграфист и издатель.—1995.—№1.— с.24-25.

5. Агеев В.Н. Совершенствование методов управления в социальных коммуникативных системах на основе электронных изданий. — Диссертация на соискание ученой степени доктора технических наук. —М., 1999.

6. Агеев В.Н. Формирование гипертекстовой базы данных на основе метода библиографического моделирования.// НТИ сер.1.— 1994,№ 6.—с. 17-20.

7. Агеев В.Н., Узилевский Г.Я. Человеко-компьютерное взаимодействие: потенции, процессы, модель. — М.: Мир,1995.—288с.

8. Агеев В.Н., Узилевский Г.Я. Исследование гипертекстовых систем с точки зрения конечного пользователя.// Пользовательский интерфейс: исследование, проектирование, реализация. —1993 —№4.—с.7-24.

9. Айзеке С. Dynamic HTML : секреты создания интерактивных Web-страниц.— СПб и др.: ВНУ-Санкт-Питербург,1998.—448с.

10. Айзенменгер P. HTML 3.2/4.0. Справочник. — М.: Бином, 1998. —357с.

11. Алексеев П.М. Методика квантитативной типологии текста. —Л.,1983.

12. Антонов А.В., Криничанская Е.А., Олейникова Е.Е. Применение методов лингво-статистического анализа к полнотекстовым базам СМИ большого объема. //НТИсер.2, 2000—№8.

13. Арапов М.В., Ефимова Е.Н., Шрейдер Ю.А. О смысле ранговых распределений // НТИ сер.2, 1975.—№ 1 .—С. 9-20. Арапов М.В., Шрейдер Ю.А. Закон Ципфа и принцип диссиметрии системы. // Семиотика и информатика. —Вып 10.— М.: ВИНИТИ,1978.— с.74-75.

14. Артамонов Е.И. Комплекс программных средств CAD/CAM ТРАФИКА-81" — http://osp.aanet.ru/ap/1997/apl/42.htm, 17.08.02

15. Атлас морфологии человека / Diamedinfo. — Электронное издание. — М.: Образ, 1998. — CD-ROM + документация 1с. — (Эксклюзивный распространитель на Европейской части России "Новый Диск"). — № гос. per. 0329800086, 1000 экз.

16. Барышников Н. Автоматический анализатор текстовой информации. — Подводная лодка,1999. —№2. —с. 62-65.

17. Белоозеров В.Н. Тезаурус терминов по морскому делу и парусному туризму. — Электронное издание. — М.: Московский парусно-туристический клуб, 1998. —- Дискета + документация 22 с.— № гос. per. 0329800224.

18. Большаков И.А., Гельбух А.Ф. Рубрикация словосочетаний в базах данных по элементам толкования сочетаемых слов.// НТИ, сер.2, 2000 — №6.

19. Большая российская юридическая энциклопедия. — Электронное издание. — С.-Пб.: ВК-Кодекс, 1998. — CD-ROM + документация 32 с. — № гос. per. 0329800138, 3000 экз.

20. Бочаров П.П., Печенкин А.В. Теория вероятностей. — М.:Издательство университета дружбы народов, 1994 г.

21. Бумфрей Ф., Диренцо О., Дакетт И. XML. Новые перспективы WWW. —М.: ДМК,2000 — 684с.149

22. Введение в гипертекст и гипертекстовые системы. http://nicst.ipu.rssi.ru/publ, 17.08.02

23. Вишнякова С.М. "Многозначность слов естественного языка и методы ее устранения при автоматическом индексировании". Автореферат диссертации на соискание ученой степени кандидата филологических наук. — Минск,1973.

24. Все налоги России. — Электронное издание. — С.-Пб.: ВК-Кодекс, 1998. — CD-ROM + документация 32 с. — № гос. per. 0329800144, 200 экз.

25. Выгодский М. Я. Справочник по высшей математике. — М.: Наука, 1966.

26. Выгодский М. Я. Справочник по элементарной математике. — М.: Государственное издательство физико-математической литературы, 1962.

27. Гайнштейн С.И., Горчинский В.Е., Филиппов Е.Г. Алгоритмы на графах.—Магнитогорск, 1995.

28. Галактионов В.В. Расширяемый язык разметки XML; промышленный стандарт, определяющий архитектуру программных средств интернет следующего поколения. —Дубна,2000. 24с.

29. Галюшков Б.С. Грамматики синтаксических групп. // НТИ сер.2, 1985. —№1.—с.31-57.

30. Гасов В.М., Соломонов Л.А.; под ред. Четверикова В.Н. Инженерно-психологическое проектирование взаимодействия человека с техническими средствами.— М.:Высшая школа, 1991.

31. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированной системе общения. — М.: Наука, 1985. Гольдштейн С.Л., Кудрявцев А.Т., Ткаченко Т.Я. Моделирование систем знаний. Компьютерный эксперимент. // НТИ, сер.2., 2000.— №2.

32. Гольдштейн СЛ., Кудрявцев А.Т., Ткаченко Т.Я. Моделирование систем знаний: системно-информационный аспект и физико-механические аналогии.// НТИ, сер.2, 1998.— №8. Гончаров A. HTML в примерах. —СПб, Питер, 1997.

33. Деньги Кирилла и Мефодия: Программа учета личных финансов. —

34. Электронное издание. — М.: Кирилл и Мефодий, 1997. — CD-ROM +документация 1с. — (© "Кирилл и Мефодий", 1997 © R-Style Software1.b, 1996, 1997). — № гос. per. 0329800065, 2000 экз.

35. Дьяконов В.П. "Популярная энциклопедия мультимедиа."—1. M.:ABF,1996.

36. Зеленков Ю.Т. О совместном использовании метода аналогии и методов теории вероятностей при решении задач компьютерной лингвистики. // НТИ сер.2.—№2.—2000.

37. Использование HTML 4. — М.: Издательский дом «Вильяме», 1999.— 779с.

38. Калинин В.М. Функционалы, связанные с распределением Пуассона, и статистическая структура текста. — Тр. Матем. инст-та им. Стеклова., Т. LXXIX.—М.,1965

39. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литературного языка. — М.: Наука, 1981.—208с.

40. Колемаев В. А., Староверов О.В., Турундаевский В.Б. Теория вероятностей и математическая статистика. — М., Высшая школа, 1991.

41. Коржинский С.Н. , Настольная книга Web-мастера: эффективное применение HTML, CSS и JavaScript. — М.: Издательскиксий дом «Кио Рус», 2000.— 319с.

42. Кэннигнхэм С. Электронные издания сегодня и завтра. http://www.osp.ru/os/1995/05/69.htm, 17.08.02

43. Морис Б. HTML в действии. —СПб и др.: Питер, 1997.—252с. Морозов В.П., Тихомиров В.П., Хрусталев Е.Ю. Гипертексты в экономике.—М.:Финансы и статистика, 1997.

44. Муллен P. HTML4. Справочник программиста. Перевод с английского.— СПб и др.: Питер, 1998.—302с.

45. Ноумер А. Уллен К. Dynamic HTML. Справочник.— СПб и др.: Питер, 1999.—510с.

46. Ованесбеков Л.Г. Технология построения гипертекста. Диссертация на соискание ученой степени кандидата технических наук.—М., 1994г.

47. Попов Э.В. Общение с ЭВМ на естественном языке.—М.:Наука, 1982. Попова О.В., Гельфанд М.С. Существует ли аналог закона Ципфа в генетическом языке? // НТИ сер.2, 2000 .—№4.

48. Прохоров А.В. Методы исследования естественно-языкового описания предметной области «Информатика и вычислительная техника». // Интеллектуальные технологии и системы. Вып. 1.; под ред. Филипповича Ю.Н.— М., 1998.

49. Рубашкин В.Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий. //НТИ, сер.2, 1998.— №1; НТИ, сер.2, 1999—№5; НТИ, сер.2, 2000.—№7.

50. Самоучитель "Работа в Internet". — Электронное издание. — М.: УНИАР, 1999. — CD-ROM + документация 1 с. — № гос. per. 0329900026, 200 экз.

51. Скороходько Э.Ф. Оценка и сопоставление толковых словарей. — НТИ, сер.2,2000.—№5.

52. Совершенствование и ремонт персональных компьютеров.—М.:ИВК-СОФТ»,1993.

53. Справочник бухгалтера. — Электронное издание. — С.-Пб.: ВК-Кодекс, 1998. — CD-ROM + документация 32 с. — № гос. per. 0329800137, 2000 экз.

54. Справочник налогоплательщика. — Электронное издание. — С.-Пб.: Центр компьютерных разработок, 1998. — CD-ROM + дискета с обновлением + документация 8 с. — № гос. per. 0329800004.

55. Филиппович Ю.Н. Метафоры информационных технологий.—М., 2002.

56. Филиппович Ю.Н., Прохоров А.В. Семантика информационных технологий.—М., 2002.— 368с.

57. Филиппович Ю.Н., Филиппович А.Ю. Электронный указатель источников рукописной древнерусской Картотеки и словаря русского языка XI — XVII вв.— М., 2002.-423с.

58. Филиппович Ю.Н., Черкасова Г. А., Дельфт Д. Ассоциации информационных технологий. Эксперимент на русском и французском языках. —М.,2002.—304с.

59. Фролов А.В., Фролов Г.В. Библиотека системного программиста Т. 29. Сервер Web своими руками. Язык HTML, Приложения CGI и ISI+PI, установка серверов Web для Windows 1997,98. — М.: Диалог МИФИ, 1997.

60. Фрумкина P.M. К вопросу о так называемом законе Ципфа. // Вопросы языкознания, 1961.—№2.

61. Хеслон Б., Бадник JI. HTML с самого начала. — СПб , Питер, 1997. — 406С.

62. Хирургическая панкреатология. Мультимедийный атлас операций на поджелудочной железе. — Электронное издание. — М.: Кордис Медиа, 1997. — 3 CD-ROM. — № гос. per. 0329700130.

63. Холодова С.А. "Методы автоматизированного проектирования гипертекстовых систем на основе массивов текстов по предметной области, словарей и знаний эксперта". — Дипломный проект. — М.: 1997.

64. Хрусталев Е.Ю. Исследование и разработка технологии моделирования экономических информационных систем на основе метода гипертекста.— Диссертация на соискание ученой степени кандидата технических наук. — М.,1999.

65. Хухлаев Е. В. Генерация HTML средствами шаблонов на базе Delphi.-М.:2000.— 16с.

66. Чурсин Н.Н. Популярная информатика. —http://www.nit.kiev.ua/ri/ch/pi05.htm, 17.08.02

67. Ширяев А.Н. Вероятность. Учебное пособие для вузов.— М. .Наука, 1989.

68. Шрейдер Ю.А., Шарапов А.А., Системы и модели. — М.: Радио и связь, 1982.

69. Эдди С.Э. XML: справочник. — СПб и др.: Питер, 1999.—477с.

70. Энциклопедия здоровья Кирилла и Мефодия, 1998. — Электронное издание. — М.: Кирилл и Мефодий, 1998. — 2 CD-ROM + документация 8 с. — № гос. per. 0329800234, 1500 экз.

71. Энциклопедия печатающих устройств. — Выпуск 2. — Электронное издание. — М.: Xelana Media Group Ltd., 1998. — CD-ROM. — № гос. per. 0329800017,3000 экз.

72. Andreev L., Inerson J., Olsen M. Lit. and Linguistic Computer// 1999.-№1., P.ll-28.

73. Arapov M.V., Krylov Yu. K. Mathematical Models of classification in application of some problem of statistical linguistics. // Computation Linguistics and Related Topics. — Tallin, 1980 . —P. 14-16

74. Bernstain M. An Apprentise that Discovers Hypertext Links. 11 In : Streitsz N., Rizk A.& Andre J. (editors) Proceeding of the European Conference of Hypertext. INRIA. — France, November 1990. — P. 212-213.

75. Booth A.D. "Low" of occurences for words of low frequency. // Information and control. — 1967. —Vol. 10.—№4.

76. Bradford S.C. Sources of information of Specific subjects. — Enge.niring, 1934.

77. Bush V. As We May Think//Atlantic Mounthly. 1945. - N. 7. - P. 101 -108.

78. Condon E. Statistics of Vocabulary. // Sciense —1928, Vol. 1733, P. 300303.

79. Cooke P., Williams I. Design issues in large hypertext systems for technical documentation. //In: McAlees R. (ed.) Hypertext: Teory into Practice. — Ablex, 1989.

80. Crestani F., Lalmas M., Rijsberga V., Cornelis J.,Campbell I. Is this document relevant?. Probably. A survey of probabilistic models in information retrievial. //ACM Computer Survey, 1998.—№4.— p. 528-552.

81. Izraelov N.E., Kagalenko М., Ghau К. Comments on " Linguistic features of noncoding DNA sequences". — Preprint.

82. Jule G.H. The statistical study of literary vocabulary. — Cambridge: Cambridge University Press, 1944.

83. Kaarlaa K., Oksanen J, Tokalos. Information model as a basis for hypermedia-based plant documentation. // Computer Networks and ISDN Systems., 1995. — № 27,—P. 751-764.

84. Kanter I., Kessler D.A. Markov processes Linguistics and Zipf's Law. // Physical Review Letters, 1995—Vol.74.—№22.

85. Lotka A. The frequency distribution of scientific productivity. // Washington Acad., Sci., 1926,Vol 16.—№12.—P.317-323.

86. Mandelbrot B.B. Fractails: Form, chance and Dimension. —San Francisco: Freeman, 1977.

87. Michaud P. A Methodology for the objective evaluation and comparison of hypertext Enviromental. //University microfilm International, USL,1990. —P. 47-49.

88. Minskiy M. A FrameWork for Representation Knowledge.// In: The Psichology of Computer Vision. — New York: McGraw-Hill, 1975.

89. Moutrol E., Badger W.W. Introduction to quantitative aspects of social phenomena. — Gordon and Breach Science Pub., 1974.

90. Nelson, T. N. A file structure for the complex, the changing, and the indeterminate//ACM 20th National Conference: Proceedings. Clevelend. -1965.-P. 84- 100.

91. Nilsen J. Hypertext & Hypermedia. —Academ Press. Inc., 1990.

92. Nilson N.J. Problem-solving metods in artificial intelligense. — Artificial Intelligence Group, Stenford Reseach Institute, California, 1971.158

93. Strzalkowski Т., Lin F., Pereacarballo J. Natural language information retrieval. //TREC-6 report: Pap. 6-th Text REtrieval Conference. Gaitherburg.— Nov., 1997.— p. 19-21.

94. Sulton G., Buckley G. On The automatic generation of content links in Hypertext Technical Report. —Cornel University , 1989, 89P.

95. Thompson H.J. Enabling access to structured documents: A short guide to LT XML. //ELS News, 1999 -№2. — P. 4-5.

96. Uzilevsky G. Color choice by user interface design in the context of ergosemiotics. //The 5-th East-West Internet Coference (EWHCI'95) -Vol2.-Moscow, 1995. — P. 180-185

97. Vierimaa M. A hypertext approach to application understanding. — Technical research center of Finland. —Espoo, 1996.

98. Zipf G.K. The Psycho-Biology of Language. —Honghton, 1935.

99. Zipf G.K. Human Behaviour and the Principe of Least Effort. —Addison Wesley: Cambridge,M.A.,1949.