автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическая модель оптимальной раскладки символов на клавиатуре и её приложения

кандидата физико-математических наук
Солиев, Одилходжа Махмудходжаевич
город
Душанбе
год
2008
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Математическая модель оптимальной раскладки символов на клавиатуре и её приложения»

Автореферат диссертации по теме "Математическая модель оптимальной раскладки символов на клавиатуре и её приложения"

5~0

На правах рукописи

003449143

Солиев Одилходжа Махмудходжаевич

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ОПТИМАЛЬНОЙ РАСКЛАДКИ СИМВОЛОВ НА КЛАВИАТУРЕ И ЕЕ ПРИЛОЖЕНИЯ

05 13 18 - математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

Диссертации на соискание ученой степени кандидата физико-математических наук

3 о СЕН 2008

Душанбе - 2008

003449143

Работа выполнена в Худжандском Филиале Техлологического Университета Таджикистана

Научный руководитель: доктор физико-математических наук,

академик АН РТ, профессор, Усманов Зафар Джураевич

Зашита состоится 15 октября 2008 г в 11 ч 00 мин на заседании диссертационного совета К 047 007.01 при Институте математики Академии наук Республики Таджикистан по адресу 734063, г Душанбе, ул. Айни 299/1

С диссертацией можно ознакомится в библиотеке Института математики АН РТ.

Автореферат разослан « /2008 г

Ученый секретарь

Официальные оппоненты:

доктор физико-математических наук, профессор Комилов Файзали Саъдуллоевич

кандидат физико-математических наук, доцент Ашуров Абдусамад

Ведущая организация: Российско-Таджикский (славянский)

университет

диссертационного совета

Каримов У X

1. Общая характеристика работы

Актуальность темы. Проблема раскладки символов на клавиатуре возникла в 1867г, когда Ch Sholes и S Soûle представили свое изобретение - первую в мире печатающую машинку Раскладка, примененная ими, оказалась достаточно простой на клавишах, сконструированных в два ряда, латинские буквы размещались в алфавитном порядке Дефекты такого решения проявлялись в случаях скоростного печатания При последовательном нажатии соседних клавишей соответствующие им исполнительные механизмы - молоточки с закрепленными на них литерами нередко зацеплялись друг за друга, застопоривая дальнейшую работу пишущей машинки В последующем Ch Sholes, пытаясь устранить этот недостаток, предложил другую раскладку. В ней буквы, наиболее часто встречающиеся в английских текстах парами, разместились в разных местах клавиатуры Такая раскладка, используемая и поныне, получила название QWERTY по шести первым буквам верхнего ряда клавиатуры

Таким образом, необходимость решения проблемы раскладки впервые была инициирована конструктивными особенностями печатного механизма Однако у этой проблемы выявилась и другая, не менее важная сторона Дело в том, что от характера раскладки букв зависят, несомненно, удобство работы на клавиатуре и скорость набора текстовой информации Поэтому вполне естественно было ожидать появление исследований именно в этом направлении, что и было осуществлено A Dvorak'oM в 1930-х годах Им предложена новая раскладка, в которой, с учетом частот встречаемости латинских букв в английских текстах, наиболее частые буквы были размещены в среднем ряду, менее частые - в верхнем и редкие - в нижнем рядах. Кроме того, все гласные буквы расположились в левой части клавиатуры Результаты соответствующих экспериментов подтвердили определенные преимущества такой раскладки, однако она так и не появилась на клавиатуре пишущих машинок

С изобретением вычислительных машин, а затем и персональных компьютеров, проблема раскладки вновь привлекла к себе внимание специалистов Несмотря на то, что изучением этой проблемы на примерах естественных языков занимались многие

з

специалисты во многих странах, удовлетворительного решения она не получила до сих пор Причина в том, что предлагаемые решения во всех случаях опирались на качественные критерии, которые при переводе на язык количественных отношений допускали многообразные интерпретации, оставлявшие возможность последующих доработок В настоящее время для многих языков, прежде всего с графикой на основе латиницы, реализованы версии раскладки Дворака, причем с сохранением позиций английских букв на прежних клавишах Поскольку последнее наверняка не отвечает грамматике и статистике конкретных языков, концепцию раскладки Дворака нельзя считать безоговорочно приемлемой вследствие чего всемирная замена вариаций QWERTY на вариации раскладки Дворака не представляется разумной

Отсутствие удовлетворительных решений проблемы способствовали, в частности, тому, что QWERTY с пишущих машин успешно перебралась и на клавиатуры компьютеров и с каждым днем все более и более укрепляет свои позиции

Между тем проблема определения наилучшей раскладки символов на компьютерной клавиатуре не теряет своей актуальности до настоящего времени. Это подтверждается не только проектированием клавиатур для так называемых менее привилегированных языков, но также и непрекращающимися попытками совершенствования английской клавиатуры (например, работы Р Klausler'a из фирмы Cray, США)

Настоящая диссертация, выполнявшаяся в рамках Государственной программы РТ "Применение и развитие информационных технологий в таджикском языке", а также научно-исследовательских планов Института математики АН РТ и Технологического университета Таджикистана, посвящена дальнейшему изучению рассматриваемой проблемы

Цель диссертации - создать математическую модель оптимальной раскладки символов на клавиатуре произвольной конфигурации и затем на ее основе предложить новые варианты эргономичных раскладок таджикских, русских и английских букв на компьютерной клавиатуре

Методы исследования. Для изучения закономерностей частоты встречаемости букв в текстах естественного языка использованы методы математической статистики, программирования, СУБД и вычислительного эксперимента Для

4

упорядочения клавишей компьютерной клавиатуры на основе трудозатрат на их активизацию применен метод экспертных оценок Построение оптимальной модельной раскладки, а также решение практических задач об эргономичных раскладках символов на клавиатуре основаны на развитии и применении методов линейного программирования

Научная новизна и результаты. Основными результатами работы являются.

- разработка модельной оптимальной раскладки символов естественного языка на клавиатуре произвольной конфигурации,

- обнаружение того факта, что случайные выборки английских, русских текстов объемом не менее 10 страниц (приблизительно 24 ООО знаков) и таджикских текстов не менее 20 страниц являются репрезентативными (Я -текстами) в том смысле, что они характеризуются статистически неразличимыми распределениями частот встречаемости букв,

- статистическое доказательство инвариантности ранжирования буквенных блоков по отношению кЯ - текстам,

- получение предварительных вариантов эргономичных раскладок русских, английских и таджикских букв на компьютерной клавиатуре

Теоретическая ценность диссертации заключается в том. что в ней предложена математическая модель для проектирования оптимальной раскладки символов на клавиатуре на основе минимизации трудозатрат при наборе достаточно длинных текстов

Практическая ценность диссертации состоит в том, что разработанная в ней общая методика проектирования эргономичных раскладок может найти практическое применение, прежде всего, дчя менее привилегированных естественных языков, которые до сих пор еще не имеют собственного национального стандарта компьютерной клавиатуры

Апробация работы. Результаты диссертации докладывались на научно-исследовательских семинарах Института математики АН РТ

Публикации. Основные результаты диссертации опубликованы в 4-х статьях, из которых 3 статьи выполнены в соавторстве с научным руководителе»! 3 Д Усмановым, которому

5

принадлежат постановки задач и обсуждение результатов Решения задач выпопнены автором диссертации

Структура работы. Диссертация изложена на 71 страницах компьютерного набора, состоит из введения, 4-х глав, 24 таблиц, 14 рисунков, списка литературы, включающего 44 наименования и 11 приложений

2. Содержание работы.

Во Введении дается обзор работ по рассматриваемой проблеме и краткая характеристика диссертации

Глава 1. Математические основы оптимальной модельной раскладки символов на компьютерной клавиатуре.

В § 1 формулируется постановка задачи о раскладке символов по клавишам клавиатуры Известно, что вся совокупность клавишей, формирующих компьютерную клавиатуру к, разделяется на два множества, к' и к" (к'ул:" = к) Множество к' состоит из клавишей, предназначенных для размещения букв какого-либо алфавита, которые позволяют пользователю взаимодействовать с компьютером на конкретном языке (например, на русском или английском) Что касается клавишей множества к" (управляющие, цифровые, функциональные, символьные и др ), то они специализированы для выполнения процедур, не зависящих, вообще говоря, от того естественного языка, алфавит которого реализован на множестве к'

При проектировании компьютерной клавиатуры под какой-либо новый естественный язык /, проектировщик размещает буквы алфавита ь на множестве клавишей к', оставляя, по возможности, неизменными назначения клавишей множества к" Последнее удается сделать при условии, что число т клавишей множества к* не меньше числа п букв алфавита I, те т >п Если же т<п, то весь алфавит ь не может быть размещен на множестве к' В таком случае приходиться либо расширять компьютерную клавиатуру к за счет присоединения к ней п-т дополнительных клавиш, либо, если изменение к не допустимо, заимствовать п-т клавишей из множества к" для перепрофилирования их под буквы алфавита I

б

Пусть множество к' тем или иным образом уже приспособлено для раскладки на нем алфавита языка ь, те, по крайней мере, выполнение условия т = п обеспечено Именно в таком предпо поженим сформулирована задача о клавиатуре

Задача К Разместить по клавишам множества к' все буквы алфавита языка ь таким образом, чтобы каждой клавише сопоставлялась одна и только одна буква

В столь общей формулировке задача к, очевидно, имеет т< различных решений Для того чтобы отдать предпочтение некоторым из них, требуется наложить какие-либо дополнительные ограничения на способы раскладки

В § 2 предлагается критерий для принятия решения о выборе оптимальной раскладки символов на произвольной клавиатуре. Пусть к - некоторая клавиатура, состоящая из п клавишей к,,к2, ,к„, причем каждой клавише приписано некоторое положительное число а, (;=1, ,и), указывающее количество элементарной работы, которую следует затратить для того, чтобы "активизировать" (нажать на) к,. Предполагается, что клавиши пронумерованы таким образом, что

Пусть а - конечный набор символов о,,а,, ,а„ (буквы какого-либо естественного языка ¿ и, возможно, некоторые знаки препинания), предназначенный для раскладки на клавишах множества к Предполагается, что нам известны относительные частоты X, Х2, д„ встречаемости этих символов в репрезентативных текстах (сокращенно я - текстах), написанных на языке £, причем без ограничения общности можно считать, что

>к„> 0.

(1)

\ > > ^ х„ > о

(2)

Возможные варианты раскладок будем записывать в виде подстановки п- ой степени-

указывая тем самым, на каких клавишах размещаются те или иные символы Здесь аЛ, может быть любым символом из набора а , при эгом ак1Фак), если ¡Ф ] Сопоставим каждому варианту количественный показатель

где Х(ак,) - частота встречаемости того символа аК:, который в данном варианте приписывается клавише к, Этот показатель назван суммарной работой, которую необходимо затратить пользователю для набора я - текста на компьютерной клавиатуре с фиксированной раскладкой символов Р(аи,акг,

Критерий оптимальной раскладки. Из всех возможных раскладок оптимальной является та, на которой суммарная работа Л.ак1,акг, ,ак11)на набор я - текста достигает минимального значения В § 3 доказывается

Теорема В условиях (1), (2) на раскладке

('К19К2, . ,К,, ,Кп

кап>ап-1> ->а»-1+1'">а[ У

Р(ап,а„_1, =

(3)

работа, затрачиваемая на набор н. - текста, достигает минимального значения, т е "наилучшей" оказывается такая раскладка, в которой "чаще встречающиеся" символы размещаются на "менее трудоемких" клавишах, а "реже встречающиеся " - на "более трудоемких " клавишах

Отметим, что в диссертации приводится иное доказательство этой теоремы в сравнении с тем, которое дано 3 Д Усмановым

В § 4 обсуждаются предпосылки применения теоретической модели для решения практических задач о раскладке символов на клавиатуре Для этих целей требуется тем или иным способом получить конкретные числовые значения величин к„к2, д„ и Л,д2, д„, характеризующих элементарные работы, затрачиваемые на нажатие клавишей, и частоты встречаемости букв в достаточно длинных текстах Однако, как следует из (3), при проектировании оптимальной клавиатуры, сводящейся, в конечном счете, к привязке каждого символа к той или иной клавише,

обнаруживается, что более важной является информация о характере ранжирования клавишей и символов, нежели точные числовые значения показателей к1 и л,, на основе которых производится само ранжирование.

Глава 2. Ранжирование клавишей

В настоящей главе осуществляется первый этап адаптации теоретической модели, предложенной в предыдущей главе, к решению задачи о раскладке символов на клавиатуре. Конкретно речь пойдет о способах определения числовых значений величин к,,к2,....к„, характеризующих работу, затрачиваемую на однократное нажатие той или иной клавиши.

В § 1 излагаются характерные особенности "слепого десятипальцевого метода" набора текстовой информации, положенного в основу определения величин четырьмя

различными способами.

В § 2 дается описание 1-го способа фиксации значений к, с помощью экспертных оценок. В качестве экспертов были выбраны 20 программистов, практикующих "слепой десятипальцевый метод" набора информации на компьютерной клавиатуре. По 10-балльной системе 35-и клавишам, предназначенным для размещения букв и некоторых символов, ими выставлены собственные оценки, характеризующие относительные трудозатраты на активизацию (нажатие) той или иной клавиши. Усредненные результаты по каждой клавише приведены в таблице 1, которая представлена фрагментом компьютерной клавиатуры.

Таблица 1

7,90

0 XV Е Я Т У и 1 О Р { } \

5,15 4,25 3,35 3,25 2,68 1,88 2,45 3,80 4,05 4,65 6,10 оо 7,45

А 5 О Е в Н ] К Ь п

2,05 1,67 1,45 0,30 1,22 1,02 0,80 1,85 2,57 3,80 4,40

г X С V В N М ?

4,05 4,35 2,25 1,83 2,28 2,58 3,20 4,35 5,25 4,90

Здесь 26 латинскими буквами и 9 специальными символами указываются клавиши английской компьютерной клавиатуры, которые использованы для раскладки и которым снизу приписаны экспертные значения относительных трудозатрат на нажатия клавишей, т е экспертные значения величин к„кг, кп.

Отметим закономерность, исходящую от экспертов клавишам, расположенным ближе к центру, выставлены меньшие оценки в сравнении с периферийными клавишами. В частности, легче достижимыми являются клавиши среднего ряда (на уровне Caps Lock), над которыми в исходном положении при "слепом десятипальцевом методе" печатания располагаются пальцы левой и правой рук

Итак, таблица 1 определяет ранжирование клавишей с точки зрения экспертов К примеру, в качестве к, следует рассматривать клавишу английской клавиатуры, показатель которой к, = 7,90 имеет наибольшее значение, в качестве к„ - клавишу f , показателю которой приписывается наименьшее значение kiS =о,зо, итд

В § 3 обсуждается второй способ определения величин к,. В качестве таковых величин предлагается рассматривать расстояния, которые приходится преодолевать тому или иному пальцу левой или правой руки для того, чтобы из исходного состояния переместиться и осуществить разовое нажатие соответствующей клавиши в пределах зоны, отведенной для него "слепым десятипальцевым методом печатания"

В § 4 отмечается приоритетность клавишей по мнению А. Дворака, а в § 5 приводятся значения к,, предложенные и П. Клауслером на основании его субъективного опыта по оценке трудозатрат на нажатие клавишей при наборе текстов большого объема

Следует отметить, что все 4 способа определения значений к, порождают хотя и "близкие", но все же различные упорядочения клавишей к,, поскольку в каждом из них присутствуют элементы субъективности.

В § 6 отмечается, что понятие "ранжирование для всех", т е в равной мере приемлемое, скажем, для подавляющей части человечества, не является объективно обусловленным и может иметь смысл лишь для однородных групп людей, вычленяемых по

ю

схожим признакам В связи с тем, что современные технологии по сути с равной эффективностью и без заметной разницы в расходах могут "штамповать" и массовую и штучную продукцию, понятие оптимальной раскладки символов на клавиатуре принимает содержательный смысл как в применении к однородным группам людей, так и индивидуальны м пользователям

Глава 3. Ранжирование букв.

В этой главе представлены результаты исследований статистических закономерностей текстовой информации Объектом изучения является частота встречаемости букв и пары букв (биграмм) в случайно выбранных текстах

В § 1 приводится перечень текстов, случайные выборки из которых послужили основой для статистических исследований

В § 2 на основе обработки текстов больших объемов впервые почучено статистическое распределение частот встречаемости таджикских букв в таджикском языке Установлено также, что ранжирование таджикских букв в порядке убывания их частоты встречаемости инвариантно относительно случайно выбранных текстов объема не менее 350 страниц

В § 3 устанавливается аналогичное ранжирование русских и английских букв на основании известных распределений их частот встречаемости в текстах больших объемов

В § 4 устанавливается, что 20-и страничные случайные выборки из таджикских текстов являются выборками минимального объема, которые несут в себе закономерности о распределении частот встречаемости букв, свойственные генеральной совокупности. Они объявляются репрезентативными (л-текстами) в том смысле, что значимо коррелируют между собой, более того они статистически неразличимы

Аналогичное утверждение оказывается справедливым для русского и английского языков

В §§ 5 и 6 рассматривается вопрос о порядке ранжировании букв таджикского, русского и английского языков по убыванию их частоты встречаемости Установлено, что ранжирование букв, порождаемое относительными частотами, является неустойчивым (неинвариантным) по отношению к л - текстам Иными словами, для различных я - текстов равных объемов ранжирования букв

и

оказываю к_я различными При более детальном анализе удалось обнаружить новый нетривиачьный инвариант, характеризующий устойчивость ранжирования буквенных блоков

Поясним с\ть этого явления Пусть, к примеру, из текстов на каком-либо естественном языке извлечено некоторое количество случайных выборок 5,, 5,, ,5„ равного объема В пределах каждой выборки подсчитаем частоты встречаемости всех букв и затем произведем их ранжирование в порядке убывания их частот Далее сравним результаты ранжирования Оказывается, что одни буквы независимо от рассматриваемой выборки сохраняют за собой одни и те же порядковые номера в общем ранжире Другие же буквы "собираются" в группы, которые для любых выборок располагаются на одних и тех же порядковых номерах общего ранжира, 1 е буквы проявляют тенденцию блочного группирования Установлено, что блочное группирование букв характеризуется следующими свойствами

• в пределах одного блока относительные частоты букв доаашчно близки (отличаются в третьем или же в че1вертом знаках после запятой),

• блоки упорядочены в том смысле, что частоты варечаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков,

• для различных текстов равных объемов порядок следования блоков (с одними и теми же наборами букв) остается неизменным, в пределах самих блоков входящие в них буквы равноправны и могут меняться местами

Итак, статистические исследования показывают, что справедливо

Утверждение 5.1. Буквы алфавита естественного языка не удастся ранжировать однозначным образом по частоте их встречаемости в текстах одинаковых объемов

Неоднозначность возникает из-за тех букв, которые попадают в один блок и имеют, по-существу, одинаковые частоты встречаемости По этой причине вместо понятия ранжирования букв приходится пользоваться более общим понятием -ранжированием буквенных блоков

Соответствующие результаты для таджикского языка, полученные при обработке случайных выборок в 20 страниц (с 40 повторное гями), показаны в таблице 2 В ней буквенные блоки

отмечены рамками (для однобуквенных блоков рамки не используются). Кроме того, числами сверху указывается ранжирование букв по убыванию их частоты встречаемости в текстах.

Таблица 2

Блочное группирование таджикских букв в 20-и страничных

выборках.

12 3 4 А И О Р

6 7 8 9 10 11 12

Н Д

М Т У Б С X,

13 14 15 16 17 18 19 20 21 22 23 24 25 К

Е 3 Ш Л В

Г X

Ф

Ч У К И

26 27 28 29 30 31 32 33 34 35 Й Г Э Ю Ж

Я П

Ъ Ч

Из этой таблицы видно, что А, И, О, Р, М, Т, У, Б, С, X,, К, Ф, Ё, Й, Г, Э, Ю, и Ж образуют 18 однобуквенных блока. Все другие буквы разместились в 4-х двухбуквенных, в 1- м четырехбуквенном и 1-м пятибуквенном блоках. Как отмечено ранее, при переходе от одной выборки к другой буквенный состав блоков остается неизменным и лишь буквы внутри них могут обмениваться своими порядковыми номерами.

Утверждение 5.2. Ранжирование буквенных блоков, представленное в таблице 2, инвариантно по отношению к случайным текстам объемом в 20 страниц.

Так же как и для таджикского языка для русского и английского языков ранжирование букв неустойчиво по отношению к случайно выбранным текстам одинаковых небольших объемов. Однако в этих случаях блочные ранжирования букв проявляются даже для 10-страничных "однородных" текстов. Соответствующие результаты приведены в таблицах 3 и 4

Таблица 3

Блочное группирование русских букв в 10-страничных выборках 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 О Е

А И Н Т С Л Р В м к д П У

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Ю

я ы Ь Г Б 3 ч й ж X ш ц щ э ф Ё Ъ

Таблица 4

Блочное группирование английских букв в 10-страничных

выборках

1 2 3 4 5 6 7 8 9 10 11 12 13 14 Е Т А О

1 N Э И Н Р 1. сим

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

М ? в У Р в V к и х и г о

В этих таблицах так же, как и в предыдущем параграфе, буквенные блоки отмечены рамками, причем для однобуквенных блоков рамки не использованы. И здесь устойчивость ранжирования буквенных блоков проявляется в том, что в русских и английских 10-страничных текстах буквы (символы) проявляют тенденцию "группирования": для русского языка - в 17 блоков (в их числе 1 блок - четырехбуквенный, 3 блока - трехбуквенных, 7 -двухбуквенных и 6 - однобуквенных), для английского языка - в 14 блоков (среди них 1 блок - пятибуквенный, 1 блок -четырехбуквенный, 3 блока - трехбуквенных, 3 - двухбуквенных и 6 - однобуквенных; удобства ради в таблице 17, а также в некоторых других местах, знаки препинания и апостроф названы буквами).

В § 7 средствами ранговой корреляции Спирмена устанавливается следующие статистические

Утверждение 7.1. Блочное ранжирование букв таджикского языка, представленное в таблиц 2, статистически инвариантно относительно случайных выборок объемом в 20 страниц Для русского и английского языков имеет место Утверждение 7.2. Блочные ранжирования букв русского и английского языков, представ пенные в таблицах 3 и 4, статистически инвариантны относительно случайных выборок объема в 10 страниц

Высказанные утверждения иными словами означают, что если взять любую случайную выборку из таджикских текстов объемом, например, в 20 страниц, то для нее будет иметь место порядок ранжирования букв, представленный в таблице 2 Если же увеличивать объем выборки, то порядок ранжирования будет изменяться и лишь по достижению объема в 350 страниц и более, см утверждение 2 1 из § 2, произойдет его стабилизация

В § 8 приводятся данные о частоте встречаемости лары букв (биграмм) в достаточно длинных текстах В главе 4 эти данные используются для уточнения характера раскладки букв на русской, английской и таджикской компьютерной клавиатуре

Глава 4. Оптимальная раскладка буквенных блоков

Пусть клавиши к1гк2, ,кп и буквы (символы) а„аг, ,о„ ранжированы условиями (1) и (2) соответственно Тогда в согласии с § 3 главы 1 оптимальной будет такая раскладка, для которой на клавише к, (¡=1, ,п) размещается буква (¡=1, ,п)

С теоретической точки зрения высказанное утверждение завершает решение рассматриваемой задачи Такое решение было бы вполне приемлемым для практических целей, т е для проектирования оптимальной раскладки букв какого-либо естественного языка на компьютерной клавиатуре, если ранжирование букв и клавишей оказалось бы строго монотонным

С ранжированием букв, как это ясно из главы 3, связаны определенные проблемы. Причина в том, что частота встречаемости букв является случайной величиной, возможные значения которой зависят от конкретного текста Поэтому, если мы собираемся использовать клавиатуру на наборы достаточно больших текстов, то нам следует воспользоваться таким ранжированием букв естественного языка, которое соответствует

частотам их встречаемости в генеральной совокупности, те в выборках больших объемов Если же мы ориентируемся на наборы текстов относительно небольших объемов, то мы должны использовать ранжирование букв в коротких выборках

В связи со сказанным в главе 4 раскладка символов на клавиатуре компьютера производится с расчетом на наборы текстов

- достаточно больших объемов, см. § 1;

- сравнительно малых объемов, §§ 2-4

Во втором случае для таджикского, русского и английского языков, прежде всего, осуществляется оптимальная раскладка буквенных блоков, которая привязывает группы букв к группам клавишей Такая раскладка

не дает единственного решения интересующей нас проблемы. Тем не менее, для таджикского языка в сравнении с начальной ситуацией, предоставлявшей выбор из 35! « Ю40 возможных раскладок, она значительно сокращает число допустимых решений до 46080 эквивалентных раскладок в том смысле, что при наборе одного и того же текста на любой из оставшихся раскладок затрачивается одна и та же работа Для русского и английского языков начальный выбор мог осуществляться среди 33' * 1036 и 30! ~ 1032 раскладок, а после применения блочной оптимизации для последующего выбора оставались 663552 и 4976640 эквивалентных раскладок

Дальнейший этап в принятии решения связывался с поисками таких раскладок, которые наилучшим образом приспособлены к реализации "слепого десятипальцевого метода" работы на клавиатуре Отметим, что на этапе окончательного формирования раскладок русских, английских и таджикских букв на компьютерной клавиатуре, существенно используются данные о частотах встречаемости в текстах пар букв (биграмм)

Получаемые таким образом раскладки названы нами эргономичными, поскольку на первом этапе их проектирования оптимальным образом размещаются буквенные блоки, а на втором - фиксация позиций букв внутри блоков осуществляется для наилучшего обеспечения "слепого десятипальцевого метода" печатания Следует оговорить особо, что на втором этапе проектирования не удается полностью устранить элементы субъективизма в принятии решений, а потому в итоге эргономичных раскладок может оказаться несколько

16

Далее приводится один из вариантов эргономичной раскладки таджикских букв на компьютерной клавиатуре.

— | ! ш |# 2 ¡А 5 !% |л & 1* |< 4 5 6 7 8 9 ) + {0 в I ! 1

О Й № 1Е * й £ \Т У и I О Р |з у\ к с: л п { 1 1 Ь ; Э ' ю

е«цяия* А 8 ! 4 Б 01 о [р Тс н а к И Р | Т М О & 1. ; ! * Н УI' X е >ш М

<Г {2 X 1 ч с ! Ч в V В N М * 1 • 1? ат Ф Я Г Ш Й\>Щ( Р #

тп Клу АИ Ксу И»яв а»

Рис. 1. Одна из эргономичных таджикских раскладок

На этом рисунке в верхней строке символы и буквы английской клавиатуры указывают позиции тех клавишей, на которых располагаются таджикские буквы в соответствии с "наилучшей раскладкой".

В § 5 предложено еще одно возможное решение проблемы раскладки таджикских букв на компьютерной клавиатуре. Оно основывается на вполне приемлемой гипотезе о том, что раскладка знаков кириллицы на компьютерной клавиатуре всесторонне продуманна и, несмотря на то, что положенные в её основу принципы раскладки полностью не известны, может служить образцом для подражания.

В § 6 отмечается, что для пользователя, работающего с таджикской графикой, создана специальная компьютерная программа, которая позволяет ему в диалоговом режиме проектировать оптимальную с его точки зрения раскладку таджикских букв на клавиатуре компьютера.

Список опубликованных работ по теме диссертации

З.Д.Усманов, О.М.Солиев. Закономерности статистического распределения частот встречаемости букв в таджикском языке // ДАН РТ, Душанбе. 2003, Т. 46, № 3-4, с.59-62.

2 3 Д Усманов, О М Солиев. О "наилучшей" раскладке таджикских букв на компьютерной клавиатуре // ДАН РТ, Душанбе 2004, Т 47, № 3, с 56-61

3 3 Д Усманов, О М Солиев К вопросу о "наилучших" раскладках английских и русских символов на компьютерной клавиатуре // Программные продукты и системы, Москва 2004, № 4, с 38-41

4 О М.Солиев О раскладке таджикских букв на компьютерной клавиатуре по схеме русской раскладки //Известия АН РТ, Отделение физ -мат , хим и геологических наук, Душанбе 2007, № 2 (127), с. 26-30

Сдано 05 08 2008 Подписано в печать 05.08 2008

Гарнитура Times Roman ,Бумага офсетная Печать офсетная Формат 60x84 Тираж 100 экз Цена договорная Заказ №49

Отпечатано в типографии ООО «Ховарон»

Оглавление автор диссертации — кандидата физико-математических наук Солиев, Одилходжа Махмудходжаевич

Введение.

Г л а в а 1. Математические основы оптимальной модельной раскладки символов на клавиатуре.

§ 1. Постановка задачи о раскладке символов по клавишам клавиатуры.

§ 2. Выбор критерия принятия решения.

§ 3. Определение оптимальной раскладки.

§ 4. О практической реализации оптимальной раскладки.

Г л а в а 2. Ранжирование клавишей.

§ ¡."Слепой " десятипальцевый метод печатания.

§ 2. Ранжирование клавишей на основе экспертных оценок.

§ 3. Второй способ ранжирования.

§ 4. Ранжирование по Двораку.

§ 5. Ранжирование по П. Клауслеру.

§ 6. Проблема ранжирования.

Г л а в а 3. Ранжирование букв.

§ 1. Выборки из генеральной совокупности таджикских текстов.

§ 2. Частота встречаемости букв в таджикском языке.

§ 3. Частота встречаемости букв в русском и английском языках.

§ 4. Объем репрезентативной выборки.

§ 5. Ранжирование таджикских буквенных блоков.

§ 6. Ранжирование русских и английских буквенных блоков.

§ 7. Статистические основы блочного ранжирования букв.

§ 8. Распределение частот встречаемости пар букв (биграмм) в русских, английских и таджикских текстах.

Г л а в а 4. Оптимальная раскладка букв и буквенных блоков.

§ 1. Оптимальные таджикская, русская и английская клавиатуры для набора больших текстов.

§ 2. Блочная раскладка букв на компьютерной клавиатуре для набора текстов относительно малых объемов.

§ 3. Неоднозначность раскладки букв по клавишам клавиатуры. Учет дополнительных требований на характер раскладки таджикских букв.

§ 4. Эргономичные раскладки русских и английских букв для набора текстов относительно малых объемов.

§ 5. Раскладка таджикских букв, аналогичная русской раскладке.

§ 6. Об эргономичной персональной раскладке букв на клавиатуре.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Солиев, Одилходжа Махмудходжаевич

Проблема раскладки символов на клавиатуре возникла, по-существу, в 1867г., когда Ch. Sholes и S. Soûle представили свое изобретение - первую в мире печатающую машинку, [1]. Раскладка, примененная ими, оказалась достаточно простой: на клавишах, сконструированных в два ряда, латинские буквы размещались в алфавитном порядке. Дефекты такого решения проявлялись в случаях скоростного печатания. При последовательном нажатии соседних клавишей соответствующие им исполнительные механизмы — молоточки с закрепленными на них литерами нередко t зацеплялись друг за друга, застопоривая дальнейшую работу пишущей машинки. В последующем Ch. Sholes, пытаясь устранить этот недостаток, предложил другую раскладку. В ней буквы, наиболее часто встречающиеся в английских текстах парами, разместились в разных местах клавиатуры. Такая раскладка, используемая и поныне, получила название QWERTY по шести первым буквам верхнего ряда клавиатуры, см. рис. 1. @ |# 1 2 |з $ * h & * И 4 5 16 7 8 19 0 s I* Beckapaw

Q WERTYUI О P { [ > ] 1 \ caps Lock A S D F G H J KL; - |е«ш ♦ » I*-1

SMit ZXCVBNM'*?»>in О * * i О

CM Win K*r M Win Key Manu Clrl

Рис.1 Раскладка QWERTY

Таким образом, необходимость решения проблемы раскладки впервые была инициирована конструктивными особенностями печатного механизма. Однако у этой проблемы выявилась и другая, не менее важная сторона. Дело в том, что от характера раскладки букв на клавиатуре зависят и удобство взаимодействия с печатным механизмом, и, несомненно, скорость набора текстовой информации. Поэтому вполне естественно было ожидать появление исследований именно в этом направлении, что и было предпринято A. Dvorak'ом в 1930-х годах, [1,2]. Им предложена новая раскладка, в которой, с учетом частот встречаемости латинских букв в английских текстах, наиболее частые из них разместились в среднем ряду, менее частые - в верхнем и редкие - в нижнем рядах. Кроме того, все гласные буквы расположились в левой части клавиатуры. Результаты соответствующих экспериментов подтвердили определенные преимущества такой раскладки в сравнении с QWERTY, но, несмотря на это, она так и не появилась на клавиатуре пишущих машинок. ;

С изобретением вычислительных машин, а затем и персональных компьютеров, проблема раскладки вновь привлекла к себе внимание специалистов. Лидерство США в области информационных технологий, утвердившее приоритетность английского языка в мире компьютеров, как-то незаметно отстранило европейские страны с письменностью на латинском алфавите от необходимости решения проблемы наилучшей раскладки букв своих собственных алфавитов на компьютерной клавиатуре. В настоящее время для многих языков, прежде всего с графикой на основе латиницы, реализованы версии раскладки Дворака, причем с сохранением позиций английских букв на прежних клавишах. Вследствие этого специфические буквы собственных алфавитов европейских стран разместились на периферии их национальных компьютерных клавиатур в качестве приложений к раскладкам QWERTY и Дворака.

Несмотря на- то, что изучением этой проблемы на примерах естественных языков занимались многие специалисты во многих странах, удовлетворительного решения она не получила до сих пор. Причина в том, что предлагаемые решения во всех случаях опирались на качественные критерии, которые при переводе на язык количественных отношений допускали многообразные интерпретации, оставлявшие возможность последующих доработок.

В определенном смысле подобная ситуация повторилась и в границах бывшего Советского Союза. Здесь развитие информационных технологий происходило, прежде всего, на русском языке, поэтому вполне естественно, что на клавиатурах вычислительных машин первым появился алфавит русского языка, а его раскладка по клавишам клавиатуры стала базовой для многих других языков, алфавиты которых основывались на русской кириллице. Также как и в случае с английским языком, при формировании национальных компьютерных клавиатур народов СССР специфические буквы национальных алфавитов разместились на периферии компьютерной клавиатуры, сохранив неизменными позиции букв русского алфавита. Разумеется, такой подход не учитывал специфику национальных языков и, наверняка, не обеспечивал "наилучшей" раскладки их букв на клавишах клавиатуры несмотря на то, что характер раскладки букв русского алфавита на компьютерной клавиатуре (ГОСТ 14289-88, стандарт для среды MS DOS и стандарт для среды MS Windows) представлялся достаточно обоснованным, см.[3].

Причина, способствовавшая появлению "неоптимальных", не эргономичных раскладок букв, обуславливалась, по-видимому, тем, что проектировщики уступили сиюминутным желаниям пользователей находить английские и русские буквы на привычных местах, нежели тратить какое-то время, даже не столь значительное, на. освоение их нового расположения на клавишах компьютерных клавиатур. Конечно, можно считать, что раскладка букв не имеет принципиального значения для выполнения заданий, поставленных человеком перед 'компьютером. Тем не менее, если отправляться от интересов пользователей, в особенности таких, чья работа связана с набором текстовой информации больших объемов, выбор наиболее удобной раскладки букв на клавишах компьютерных клавиатур с учетом соображений эргономики выглядит далеко не бесполезным делом. Добавим к этому, что выбор во всех отношениях "наилучших" раскладок букв актуален для тех естественных языков, для которых еще не утверждены национальные стандарты компьютерной клавиатуры. В подтверждение сказанного достаточно отметить повышенный интерес современной цивилизации к решению различных вопросов информатизации и, в частности, к проектированию компьютерной клавиатуры для, так называемых, менее привилегированных языков (for less privileged languages). Проблема определения наилучшей раскладки символов на компьютерной клавиатуре не теряет своей актуальности и для английского языка. Это подтверждается непрекращающимися попытками совершенствования английской клавиатуры, что видно, к примеру, из работы P. Klausler'a из фирмы Cray, США, 2003г. ,

Настоящая диссертация, выполнявшаяся в рамках Государственной программы РТ "Применение и развитие информационных технологий в таджикском языке", а также научно-исследовательских планов Института математики АН РТ и Худжандского Филиала Технологического университета Таджикистана, посвящена дальнейшему изучению рассматриваемой проблемы

Цель диссертации - создать математическую модель оптимальной раскладки символов на клавиатуре произвольной конфигурации и затем на её основе предложить новые варианты эргономических раскладок таджикских, русских и английских букв на компьютерной клавиатуре.

Методы исследования. Для изучения закономерностей частоты встречаемости букв в текстах естественного языка использованы методы математической статистики, программирования, СУБД и вычислительного эксперимента. Для упорядочения клавишей компьютерной клавиатуры на основе трудозатрат на их активизацию применен метод экспертных оценок. Решения модельной, а также практических задач об эргономичных раскладках символов на клавиатуре основаны на развитии и применении методов линейного программирования.

Научная новизна и результаты. Основными результатами работы являются:

- разработка модельной оптимальной раскладки символов естественного языка на клавиатуре произвольной конфигурации; л

- обнаружение того факта, что случайные выборки английских, русских и таджикских текстов объемом не менее 10 страниц (приблизительно 24 000 знаков) являются репрезентативными (Я - текстами) в том смысле, что они характеризуются статистически неразличимыми распределениями частот встречаемости букв;

- статистическое доказательство инвариантности ранжирования буквенных блоков по отношению к Я — текстам;

- получение предварительных вариантов эргономичных раскладок русских, английских и таджикских букв на компьютерной клавиатуре.

Теоретическая ценность диссертации заключается в том, что в ней предложена математическая модель для изучения проблемы раскладки символов на клавиатуре на основе минимизации трудозатрат при наборе "коротких" и достаточно длинных текстов.

Практическая ценность диссертации состоит в том, что разработанная в ней общая методика проектирования эргономичных раскладок может найти практическое применение, преэюде всего, для менее привилегированных естественных языков, которые до сих пор еще не имеют собственного национального стандарта компьютерной клавиатуры.

Апробация работы. Результаты диссертации докладывались на научно-исследовательских семинарах Института математики АН РТ

Публикации. Основные результаты диссертации опубликованы в 4-х статьях [41-44], из которых 3 статьи выполнены в соавторстве с научным руководителем З.Д.Усмановым, которому принадлежат постановки задач и обсуждение результатов. Решения задач выполнены автором диссертации.

Структура работы. Диссертация изложена на 72 страницах компьютерного набора, состоит из введения, 4-х глав, 24 таблиц, 14 рисунков, списка литературы, включающего 44 наименования и 11 приложений.

Библиография Солиев, Одилходжа Махмудходжаевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Усманов 3. Д. Об оптимальной раскладке символов на клавиатуре Программные продукты и системы. -2004. №2, -с. 32-39. 6. 7. http://traditio.ru/index.php/Kлaвиaтypa_Двopaкa Курош А. Г. Курс высшей алгебры. -М.: Наука, Гл. редакцияфиз.-мат. лит., 1971,-432 с.

2. Юдин Д. Б.,Гольштейн Е.Г. Линейноепрограммирование.-М.: Наука, Гл. редакция физ.-мат.лит., 1969, -429 с.

3. ЧернаяР. И.Самоучитель машинописина компьютере или пишущей машинке. Ускоренный метод обучения. -М.: Приор, 1999, -80 с. Ю. Айни Ёдоштхр, к,исми 1,2 (Воспоминания, часть 1,2). Душанбе: Адиб, 1990,-352 с. 11- Айни Ятим(Сирота).-Душанбе: Нашриётидавлатии Точ,икистон, 1940, 140 с.

4. Айни Кахрамонихалкд точик-Темурмалик (Герой таджикского народа-Темурмалик). -Душанбе: Маориф, 1978, 168 с.

5. Гафуров Б.Г. Точдшш (Таджики). -Душанбе: Ирфон, 1998, -416 с.

6. Улугзаде Пирихакимони машрик,замин(Вождь мыслителей Востока) -Душанбе: Маориф, 1980, -200 с.

7. Турсунов Н.О. Таърихи точикон (Историятаджикского народа). -Худжанд: Солитон,2001, -788 с.

8. Мухаммадиев Ф.Куллиёт (Полноесобрание сочинений). Душанбе: Адиб, 1990,-384 с.

9. Икрами Дж. Асархри мунтахаб (Избранныепроизведения). Душанбе: Адиб, 1987, -352 с.

10. Бахори А. Бозгашт (Возвращение). -Душанбе: Ирфон, 1973, 120 с.

11. Бахори А. Сохили мурод (Берег надежды). -Душанбе: Адиб, 2000, -368 с.

12. Джалил Р. Одамони ч,овид (Вечные люди). Душанбе: Нашриёти давлатии Точикистон, 1954, -478 сг

13. Соколов Н.Теоретические основы Государственной единой системы стенографии (Частотность букв в русской письменной речи). -М.: Учпедгиз 1949, 114 с. 22. http://en.wikipedia.org/wiki/Letter_frequencies

14. Гмурман В. Б.Теория вероятности иматематическая статистика. -М.: Высшая школа, 2005, -480 с.

15. Азимов А. Я робот. -М.: Центрполиграф, 2003, -319 с.

16. Азимов А. Сами боги. -М.: Эксмо-Пресс,2008, -384 с.

17. Азимов А. Новые миры. -М.: Полярис, 1997, -351 с.

18. Достоевский Ф.М. Полное собрание сочинений.-Ленинград: Наука, 1976, -623 с.

19. Толстой Л. Н.Анна Каренина. -М.: Дрофа, 2006, -416 с.

20. Толстой Л. Н.Воскресенье.-М.: Мир книги, 2007, -480 с.

21. Толстой Л. Н.Утро помещика. -М.: Правда, 2007, -527 с.

22. Андреев Л. Н.Повести иРассказы.-М.: Эксмо,2004, -832 с.

23. Лермонтов В. Ю. Азбука жизни. -М.: Невский проспект, 2004, -256 с.

24. Гоголь Н. В. Миргород. -М.: Мир книги,2007, -240 с.

25. КэтлинР.Дж. Гарри Поттер и Орден Феникса. -М.:Росмэн,2004,-828 с.

26. Фадеев А. А. Молодая гвардия. -М.: Современник, 1980, -669 с.

27. Яблоков М. Пришельцы. -М.: АиФ-Принт, 2001, 320с.

28. Raphael F.The glittering prizes. -London: JR Books Ltd, 2007, -295 p.

29. Schmitz J. Telzey. -London: Baen, 2000,-448 p.,

30. Hjortsberg W. Falling Angel. -N. Y.: New Ed edition, 1996, -256 p.

31. Fitzgerald S. The great Gatsby. -M Ikar,2004, -220 p.

32. Усманов 3. Д.,Солиев О.М. Закономерности статистического распределения частот встречаемости букв в таджикском языке//ДАН РТ, 2003. Т.46, 3-4, с. 59-62.

33. Усманов 3. Д.,Солиев О.М. О "наилучшей" раскладке таджикских букв на компьютерной клавиатуре //ДАН РТ. 2004. Т. 47, 3, с. 56-61.

34. Усманов 3. Д., Солиев О.М. К вопросу о "наилучших" раскладках английских ирусских символов накомпьютерной клавиатуре Программные продукты и системы. -2004. 4, -с. 38-41.

35. Солиев О. М. О раскладке таджикских букв на компьютерной клавиатуре посхеме русской раскладки //ИзвестияАН РТ, 2007. №2(127), -с.26-30.