автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики

кандидата технических наук
Лери, Марина Муксумовна
город
Петрозаводск
год
2006
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики»

Автореферат диссертации по теме "Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики"

На правах рукописи

Лери Марина Муксумовна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ПРАВИЛ ВЫБОРА МЕТОДОВ АНАЛИЗА ДАННЫХ ДЛЯ ИНТЕЛЛЕКТУАЛИЗИРОВАННЫХ СИСТЕМ ПРИКЛАДНОЙ СТАТИСТИКИ

05.13.18 — математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Петрозаводск 2006

Работа выполнена в Институте прикладных математических исследований Карельского научного центра РАН-

Научный руководитель доктор физико-математических наук, профессор Павлов Юрий Леонидович.

Официальные оппоненты:

доктор технических наук, доцент Рогов Александр Александрович, доктор технических наук, с.н.с. Белашев Борис Залманович.

Ведущая организация Нижегородский государственный университет им. Н.И. Лобачевского.

Защита состоится 3 ноября 2006 г. в 14 часов 00 мин. на заседании диссертационного совета Д 212.190.03 при Петрозаводском государственном университете по адресу: 185910, Петрозаводск, пр. Ленина, 33.

С диссертацией можно ознакомиться в библиотеке Петрозаводского государственного университета.

Автореферат разослан

Ученый секретарь диссертационного совета

В. В. Поляков.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Использование методов прикладной статистики за последние десятилетия вышло на качественно новый уровень и приобрело массовый характер. Все более широкое распространение получают программные средства, предназначенные для статистического анализа данных. Однако, до сих пор острой остается проблема некорректного использования статистического программного обеспечения. Это связано с тем, что уровень статистического образования многих пользователей оказывается недостаточным, а наиболее известные зарубежные продукты почти не содержат функций помощи при выборе метода анализа данных и обучения работе с существующими методами. Поэтому, одним из актуальных направлений разработки отечественного статистического программного обеспечения остается работа над его интеллектуализацией, т.е. над созданием программных средств статистического анализа данных, предназначенных не только для решения задач методами прикладной статистики, но и содержащих развитые информационно-справочные и экспертные системы. Такие системы должны включать в себя сведения обо всех используемых в пакете понятиях и методах математической статистики и помогать пользователю при выборе метода решения задачи, режима работы соответствующей программы и при интерпретации полученных результатов. Рекомендации, предлагаемые системой, должны быть обоснованы, однако современная математическая теория на многие возникающие здесь конкретные вопросы ответа не дает, поэтому для разработки экспертных правил необходимо проводить соответствующие исследования.

Автор диссертации является одним из разработчиков системы "Статистик-Консультант" - специализированного методо-ориентиро-ванного статистического комплекса программ, исторически первого отечественного пакета такого типа, созданного в среде Windows, и получившего высокую оценку специалистов. В ходе создания экспертной системы пакета возникли вопросы, связанные с выбором методов анализа данных среди нескольких альтернатив.

В диссертации рассматриваются вопросы разработки рекомендаций по выбору метода анализа данных для двух групп методов. Рассмотрены выбор критерия согласия и выбор метода поиска наибо-

лее информативного множества признаков в линейном регрессионном анализе.

Цель исследования. Целью диссертационной работы является построение математических моделей и разработка рекомендаций, используемых при выборе методов анализа данных в интеллектуализи-рованном программном обеспечении прикладной статистики.

Объекты исследования. Объектами исследования были датчики псевдослучайных чисел и две группы методов статистического анализа данных: три критерия согласия и шесть методов поиска наиболее информативного множества признаков (ПНИМП) в линейном регрессионном анализе.

Методы исследования. Исследование методов анализа данных и сравнение получаемых с их помощью результатов аналитическим путем представляется весьма затруднительным, особенно вследствие того, что необходимо учитывать различные условия возникновения данных. Одним из путей решения этой проблемы предлагается метод статистических испытаний (метод Монте-Карло), который приобретает все большую популярность при сравнении методов анализа данных. Этот метод и был выбран в качестве основного метода исследования в диссертации. Кроме того, использовались методы оценивания параметров, методы проверки статистических гипотез, методы линейного регрессионного анализа. Основную сложность при получении результатов, несмотря на существенную автоматизацию процесса, представлял объем вычислительных экспериментов, так, например, трудозатраты на проведение экспериментов составили не менее 2000 чел .-дней.

Научная новизна. Все основные результаты диссертации являются новыми. В частности, впервые получены модели зависимостей мощностей критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез, разработаны рекомендации пользователям по выбору критериев согласия в статистическом программном обеспечении и по определению некоторых условий проведения экспериментов при их планировании. Также впервые проведено сравнение шести методов поиска наиболее информативного множества признаков в линейном регрессионном анализе по вероятности возникновения эффекта "вздувания" коэффициента детер-

минации. Получены модели взаимной зависимости числа регрессоров, включаемых в начальный набор, параметров методов и числа случаев ошибочной работы методов и разработаны рекомендации по выбору метода поиска наиболее информативного множества признаков в линейном регрессионном анализе.

Основные результаты диссертации, выносимые на защиту: На защиту выносятся:

1. Комплекс программ, реализующий систему датчиков псевдослучайных чисел и процедуры критериев согласия. Эти программы включены в статистический пакет "Статистик-Консультант".

2. Модели зависимостей функций мощностей критериев согласия Пирсона, Колмогорова-Смирнова и пустых ящиков от параметров проверяемых гипотез. На основе этих моделей разработаны рекомендации пользователям по выбору критериев согласия.

3. Модели взаимной зависимости параметров методов ПНИМП, числа регрессоров и вероятности возникновения эффекта "вздувания" коэффициента детерминации. Установлено, что этот эффект является главным лимитирующим фактором при выборе метода поиска наиболее информативного множества признаков. На основе построенных моделей разработаны рекомендации по выбору методов линейного регрессионного анализа, направленные на снижение вероятности возникновения эффекта "вздувания" коэффициента детерминации.

Связь работы с крупными научными программами, темами. Результаты диссертации были получены в рамках трех тем планов научно-исследовательских работ Института прикладных математических исследований Карельского научного центра РАН: "Исследование и разработка методов математической статистики и теории многокритериальных задач с целью их реализации в интеллектуали-зированных системах" (№ гос. регистрации 01.9.40009930), "Исследование и разработка методов создания интеллектуальных систем статистического анализа данных" (№ гос. регистрации 01.9.80009162) и "Разработка методов исследования случайных структур и их применения при принятии статистических решений" (№ гос. регистрации

01.200.202223). В 1996-1997г. исследования"проводились при поддержке Российского Фонда Фундаментальных Исследований (грант 96-0100162). В 2000г. работа была поддержана грантом конкурса персональных грантов для студентов, аспирантов и молодых ученых проведенного Администрацией Санкт-Петербурга, Министерством образования РФ и РАН при участии ФЦП "Интеграция". В 2001г. был получен грант Российского Фонда Фундаментальных Исследований (грант 01-01-10850) для участия в VI международной конференции "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods" (Минск, Белоруссия).

Апробация результатов диссертации. Основные результаты докладывались на международной конференции "Computer Data Analysis and Modeling" (Минск, 1995), Шестой научной конференции стран СНГ "Применение многомерного статистического анализа в экономике и оценке качества продукции" (Москва, 1997), Первом Всероссийском симпозиуме по прикладной и промышленной математике (Петрозаводск, 2000), Всероссийской научной школе "Математические методы в экологии" (Петрозаводск, 2001), Шестой международной конференции "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods" (Минск, 2001), Российско-Скандинавском симпозиуме "Probability Theory and Applied Probability" (Петрозаводск, 2006).

Публикация результатов. Основные результаты диссертации опубликованы в десяти работах, из них свидетельство об официальной регистрации программы для ЭВМ, три статьи в трудах международных конференций, две статьи в сборниках трудов Петрозаводского государственного университета и Института прикладных математических исследований Карельского научного центра РАН и четверо тезисов докладов на международных и всероссийских конференциях.

Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и 4 приложений. Объем диссертации без приложений составляет 133 страницы, объем приложений — 81 страница. Список литературы содержит 61 наименование.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дается обоснование актуальности темы диссертации, приводится краткое описание комплекса программ "Статистик-Консультант" и вклада автора в его создание, сформулированы цель работы и основные результаты, выносимые на защиту, дано описание структуры диссертации.

Первая глава посвящена вопросам, связанным с имитационным моделированием, в частности построению системы датчиков псевдослучайных чисел.

Целью исследования, описанного в первой главе, было построение совокупности, датчиков псевдослучайных чисел, позволяющих генерировать выборки, соответствующие 15-ти законам распределения, реализованным в системе "Статистик-Консультант" (10 непрерывных законов: равномерный, нормальный, логнормальный, хи-квадрат, Стьюдента, Фишера, бета, гамма, экспоненциальный, Колмогорова; и 5 дискретных: Бернулли, биномиальный, отрицательно-биномиальный, геометрический, Пуассона).

В параграфе 1.1 рассматривается один из достаточно простых алгоритмов выработки псевдослучайных последовательностей, часто рекомендуемый в литературе. Это так называемый линейный конгруэнтный метод, где последовательность псевдослучайных чисел, равномерно распределенных на отрезке [0,1], порождается по формуле:

=-гт> гц = (о • щ-г + с) mod m, (1)

т + 1

Этот датчик используется в алгоритмах получения псевдослучайных чисел, имеющих другие распределения. Следуя рекомендациям Д. Кнута, значения о, с и га были выбраны равными: а — 314159256, с = 2718281829, га = 231 - 1.

В параграфе 1.2 приводятся алгоритмы, реализующие все включенные в систему датчики.

В параграфе 1.3 описана методика проверки качества рассматриваемой системы датчиков посредством метода статистических испытаний.

Известно, что качество линейного конгруэнтного датчика стандартного равномерного распределения (1), а следовательно и любых

связанных с ним датчиков других законов распределения, существенно зависит не только от выбранных значений а, с и т, но и от выбора начального значения датчика щ. Автором были проведены исследования с целью нахождения такого начального значения щ датчика равномерного закона распределения, при использовании которого качество датчиков всех реализованных законов распределения было бы приемлемым.

В параграфе 1.4 рассматриваются результаты вычислительных экспериментов по подбору значения щ и проверке качества полученной совокупности датчиков псевдослучайных чисел. В результате проведенных вычислительных экспериментов было выбрано значение По = 0175875379. Новизна подхода состояла в том, что важный параметр датчика стандартного равномерного распределения и о подбирался не для обеспечения качества именно этого датчика, а для построения группы датчиков различных распределений с различными значениями параметров. Разработанная система датчиков использовалась при проведении исследований, описанных в главах 2 и 3 диссертации.

Таким образом, в результате проведенных исследований была разработана система датчиков псевдослучайных чисел, генерирующих последовательности, надежность согласования которых с соответствующими распределениями равномерна по всем 15-ти реализованным законам и достаточна для практического применения.

Вторая глава посвящена методам проверки статистических гипотез о распределении исследуемых случайных величин - критериям согласия. Цель исследования состояла в разработке рекомендаций пользователям статистического программного обеспечения по выбору этих критериев в конкретных ситуациях. Основой для таких рекомендаций послужили построенные модели функций мощности рассмотренных критериев согласия.

В параграфе 2.1 приведена общая схема критериев согласия и даны описания трех критериев, реализованных в статистическом пакете "Статистик-Консультант": критерия х2 Пирсона, критерия Колмогорова-Смирнова и критерия пустых ящиков.

В параграфе 2.2 приводятся алгоритмы программ проверки гипотез о соответствии выборки 15-ти наиболее употребительным законам распределения по трем, описанным в параграфе 2.1, критериям

согласия.

Параграф 2.3 содержит методику проведения вычислительных экспериментов, цель которых состояла в получении эмпирических оценок функций мощности исследуемых критериев согласия. Выборки, соответствующие альтернативным гипотезам (#1), генерировались с помощью датчиков псевдослучайных чисел. Далее проверялись нулевые гипотезы {Но), т.е. согласие распределения каждой из выборок с остальными законами распределения по трем рассматриваемым критериям согласия. На основе полученных результатов для каждой рассмотренной пары гипотез {Но,Н\) и каждой выборки подсчитывал ась доля экспериментов, в которых гипотеза Но отвергалась при заданном планом экспериментов значении уровня значимости «о. Эта доля рассматривалась в качестве эмпирической оценки значения функции мощности критерия согласия для конкретной пары гипотез {Н0, Н1), заданных параметров альтернативного распределения и заданного уровня значимости «о-

В параграфе 2.4 с помощью метода ветвей и границ линейного регрессионного анализа построены модели зависимостей мощностей рассмотренных критериев от уровня значимости, объема выборки и значений параметров проверяемых гипотез. Общее число построенных моделей - 149. На основе этих моделей были сформулированы рекомендации пользователям по выбору критериев согласия при использовании статистического программного обеспечения и по определению некоторых условий проведения экспериментов при их планировании.

Например, пусть гипотеза Но состоит в том, что распределение выборки соответствует нормальному распределению при альтернативной гипотезе Н\ о том, что распределение выборки равномерно. План эксперимента содержал 3 стандартных значения уровня значимости ао (0.01, 0.05, 0.10; для простоты, в моделях ао обозначено как а); 5 значений объема выборки п (10, 50, 100, 500, 1000) и 12 интервалов (а, 6), соответствующих плотности равномерного распределения. Были построены следующие модели, оценивающие мощность ¡л каждого критерия согласия в зависимости от переменных п, а, Ь, а:

- для критерия хи-квадрат (12 ^ п < 1000):

ц = -0.07 + 0.0028п 4- 4а - 0.000002п2 - 9.8а2 - 0.0034па,

коэффициент детерминации модели: В? = 0.98;

- для критерия Колмогорова-Смирнова (87 ^ п ^ 1000):

ц = -0.22 + 0.0022п + 4.1а - 0.0000012п2 - 20а2,

коэффициент детерминации модели: В.2 = 0.93;

- для критерия пустыор ящиков (27 ^ п < 1000):

¡л = -0.097 + 0.0028п + 2.45а - 0.000002п2 - 0.002па,

коэффициент детерминации модели: В? = 0.95.

В круглых скобках указаны дополнительные ограничения на область определения значений, в данном случае, на число элементов выборки п. Эти ограничения были продиктованы особенностями метода регрессионного анализа и конкретных функций распределения. Понятно, что приведенные модели можно использовать только при значениях параметров, указанных для каждой модели. В связи с этим, полученную в главе 2 совокупность моделей можно рассматривать как базовую, которая может пополняться и уточняться.

На основе построенных моделей были разработаны рекомендации пользователям статистического программного обеспечения по выбору критериев согласия в различных условиях. Так, например, в случае проверки на нормальное распределение при альтернативе о равномерности выборки, если п = 500 и а = 0.1, используя приведенные выше модели получаем: = 0.962, Цкв = 0.79, цеъ — 0.948, где /¿ха, [1к3, (леь — значения функций мощности критериев хи-квадрат, Колмогорова-Смирнова и пустых ящиков соответственно. Нетрудно видеть, что наибольшую мощность в данном случае имеет критерий хи-квадрат, который и следует рекомендовать пользователю. В случае же п = 1000 и а = 0.1, значения функций мощности будут следующими: /¿хз = 0.692, Цкз — 0.99, ¡геъ = 0.748. В этом случае наибольшую мощность имеет критерий Колмогорова-Смирнова, поэтому в такой ситуации пользователю можно рекомендовать воспользоваться именно этим критерием.

Таким образом, в главе 2 были получены следующие результаты:

1. разработаны программы вычисления значений прямой и обратной функций наиболее употребительных законов распределения и проверки гипотез о соответствии выборки этим законам по трем критериям согласия: х2 Пирсона, Колмогорова-Смирнова и пустых ящиков. Все эти программы включены в пакет "Статистик-Консультант";

2. построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез;

3. разработаны рекомендации пользователям статистического программного обеспечения по выбору критериев согласия и по определению некоторых условий проведения экспериментов при их планировании.

Третья глава посвящена исследованиям методов поиска наиболее информативного множества признаков (ПНИМП) в линейном регрессионном анализе.

В параграфе 3.1 дается описание классической задачи регрессионного анализа. Предположим, что случайная величина г) имеет некоторое распределение вероятностей при фиксированном значении случайного вектора £ = • • • ,£т} такое, что М(?7|£) = д(£,р), где М(г7|£) - условное математическое ожидание г] при фиксированном

а /3 - совокупность неизвестных параметров, определяющих функцию р). Пусть вектор ~У' — {уг,у2, • • •, уп} содержит результаты п независимых наблюдений величины 77, а соответствующие им наблюдения вектора £ выражены в виде числовой матрицы: X = (х^), где х^ являются ¿-ми реализациями величин ^. Требуется поХи У оценить значения параметров /?. В практических приложениях решение такой задачи позволяет установить связь между величинами г) и £ в виде математической модели, основанной на упрощенных допущениях: конкретные реализации величин £1,..., £т являются контролируемыми и могут быть заданы, а наблюдаемые значения 77 представимы в виде

У» = . . . , /3) + 6», ¿ = 1,2, . . . , П;

где величины £{, носящие название ошибок, являются реализациями независимых и одинаково распределенных случайных величин с нулевым математическим ожиданием и постоянной дисперсией (будем считать, что эти случайные величины имеют нормальное распределение). Переменные, являющиеся координатами вектора принято называть независимыми, признаками, предикторами. Переменную г] называют зависимой, откликом.

Одной из основных задач классического регрессионного анализа является выбор модели, то есть вида функции /3). Наиболее удобной для исследования и оценки и, следовательно, наиболее употребительной, является модель регрессии, линейная относительно параметров 0 — (Д), 01, • • • > 0к), в которой функция 0) представима в виде линейного уравнения:

<?(£, Р) = Ро9о(0 + Рт(0 +... + Рк9к(0, (2)

где ро(£)> • • • > 9к(€) ~ некоторые функции от не зависящие от (3. Вид этих функций обычно выбирается из теоретических соображений или путем подбора. Функции <7о(£),... ,9к(0 принято называть регрессо-рами.

Каждая модель вида (2) представляет собой регрессионную зависимость. Поскольку возможности образования регрессоров практически неисчерпаемы, возникает проблема выбора среди различных зависимостей наилучшей в смысле некоторого критерия. Другими словами, требуется из некоторого конечного множества регрессоров {0о(£)»01(£)> • • ч9к(€)} выбрать для включения в уравнение подмножество {<7*1(0» (£)> • • • >#*<(£)}» гДе обеспечивающее высокое качество модели. Легко видеть, что без ограничения общности мы можем считать, что <7о(£) = 15 9j(0 — 3 — 1, • • •, & и называть величины £1,... регрессорами. Таким образом, далее мы будем рассматривать модели, для которых

Уi — 0о+ р1Хц + 02X12 4-... + РкХхк + £*,

где г = 1,2,..., п, к < п — 1.

Минимальный набор регрессоров, которые можно включить в модель таким образом, чтобы она адекватно (в каком-то определенном

смысле) описывала изучаемое явление, называется наиболее информативным множеством признаков. В регрессионном анализе разработан целый ряд методов поиска такого множества. В проведенном исследовании рассматриваются шесть методов ПНИМП: метод всех возможных регрессий, два вида методов ветвей и границ и три вида пошаговых методов.

Суть каждого из методов ПНИМП состоит в том, что он осуществляет перебор регрессионных моделей, которые можно построить на основе данного начального набора регрессоров, с целью нахождения среди них "наилучшей". Поясним, что в диссертации понимается под "наилучшей" моделью. Полной моделью назовем уравнение регрессии, содержащее все регрессоры из начального набора. Моделью, адекватной полной, назовем такую ее подмодель, которая не отличается статистически значимо (в смысле некоторого критерия) от полной, но содержит меньше регрессоров. Понаилучшей будем понимать модель, которая среди всех моделей, адекватных полной, содержит наименьшее число регрессоров. Включение модели в множество моделей, адекватных полной, производится с помощью критериев качества уравнения регрессии. Одним из показателей качества модели является коэффициент детерминации К2, где Я — выборочный коэффициент множественной корреляции.

В системе "Статистик-Консультант" оценка качества регрессионной модели производится по результатам проверки гипотезы о значимости отличия коэффициента детерминации рассматриваемой модели от коэффициента детерминации полной модели.

Параграф 3.2 посвящен проблеме, впервые поднятой А. Н. Колмогоровым - эффекту "вздувания" коэффициента множественной корреляции. Этот эффект заключается в том, что модель существенно (со статистической точки зрения) преувеличивает реально существующую зависимость между исследуемыми переменными, что выражается в слишком большом значении коэффициента множественной корреляции.

Каждый из методов ПНИМП осуществляет проверку гипотезы о том, что полученная им регрессионная модель является адекватной начальным данным. Еще в 1933 г. А. Н. Колмогоров обратил внимание на то, что при осуществлении многократных расчетов коэффициента

множественной корреляции для регрессионных моделей, полученных на основе одного и того же начального набора регрессоров, может происходить так называемое "вздувание" коэффициента множественной корреляции. При этом, хотя в уравнение регрессии обычно не вводится более 5 — 7 переменных, запас переменных, из которых они могут быть выбраны, может быть очень велик.

Построенные таким образом модели могут хорошо описывать имеющиеся данные, но не быть пригодными для прогнозирования. Предложение А. Н. Колмогорова по уменьшению данного эффекта вздувания коэффициента множественной корреляции состоит в том, чтобы ограничить число переменных, входящих в начальный набор регрессоров. Но остается неясным вопрос о конкретном числе переменных, которые можно включить в начальный набор регрессоров, для каждого метода ПНИМП, позволяющем найти модель так, чтобы вероятность вздувания коэффициента детерминации была бы допустимой.

В параграфе 3.3 подробно рассмотрена методика исследования описанных в параграфе 3.1 методов ПНИМП с точки зрения возникновения эффекта вздувания коэффициента детерминации.

Идея исследования заключается в генерировании с помощью датчиков псевдослучайных чисел, описанных в главе 1, данных по заранее заданным моделям, включая случай отсутствия зависимости отклика от регрессоров, и сравнении построенных с помощью методов ПНИМП моделей с заданными. Если регрессионный метод находит модель, близкую к заданной, то результат такого эксперимента считался успехом, в противном случае - "неудачей". По результатам исследования были построены модели, отражающие взаимозависимость числа "неудач" метода, числа регрессоров, включаемых в начальный набор и величины параметра метода (для метода всех возможных регрессий и методов ветвей и границ — это уровень значимости регрессионной модели (в случае отсутствия зависимости отклика от регрессоров) или уровень значимости для проверки гипотезы о включении конкретного регрессора в модель (в случае существования зависимости); для пошаговых методов — это ¿^-статистика включения/исключения). Кроме того, проводилось сравнение методов ПНИМП между собой с точки зрения их отличия друг от друга по вероятности возникновения эффекта "вздувания" коэффициента

детерминации в зависимости от числа регрессоров, включаемых в начальный набор и значений параметров методов.

Параграф 3.4 посвящен результатам вычислительных экспериментов по определению для каждого метода ПНИМП максимального числа регрессоров, при котором вероятность неудачи (см. выше) была бы допустимой.

Так, например, для метода всех возможных регрессий в разных условиях формирования отклика и предикторов были получены следующие модели зависимости параметра метода р от числа регрессоров начального набора г и числа "неудач" метода / (понятия параметра метода и "неудачи" введены выше):

- в случае отсутствия зависимости отклика от регрессоров, когда распределение отклика и регрессоров было нормальным:

р = 4.6828 - 0.2541г + 0.0937/;

- в случае отсутствия зависимости отклика от регрессоров, когда распределение отклика и регрессоров неизвестно:

р = 0.1732 - 0.005г 4- 0.0027/;

- в случае существования зависимости отклика от одного регрес-сора:

р = 2.5898 - 0.1485г + 0.0638/;

- в случае существования зависимости отклика от набора из шести регрессоров:

р = 3.1126 - 0.1622г 4- 0.0701/.

Результаты попарного сравнения методов ПНИМП и построенные модели были использованы для разработки рекомендаций пользователям статистического программного обеспечения при работе с методами ПНИМП. Приведем пример формирования рекомендации по выбору параметра метода, основанной на приведенных выше моделях.

Пусть у пользователя имеется выборка наблюдений, соответствующих некоторой зависимой переменной, 15 независимых переменных, а заданная им допустимая вероятность возникновения эффекта вздувания коэффициента детерминации равна 5%. Необходимо найти регрессионную модель зависимости отклика от каких-то регрессоров из имеющегося начального набора.

Основываясь на полученных результатах сравнения методов, система рекомендует воспользоваться методом всех возможных регрессий. Далее, для формирования рекомендации по выбору параметра метода, используя приведенные выше модели, получаем следующее:

- если отклик не зависит от набора регрессоров, и если распределение отклика и регрессоров нормально, то р — 1.34%,

- если отклик не зависит от набора регрессоров, и если распределение отклика и регрессоров неизвестно, то р — 0.11%.

Очевидно, что для того, чтобы обеспечить решение поставленной задачи, из приведенных значений р нужно выбрать наименьшее. Далее:

- если отклик зависит от одного регрессора, то р = 0.68%,

- если отклик зависит от шести регрессоров, то р — 1.03%.

Таким образом, в данном примере можно рекомендовать воспользоваться методом всех возможных регрессий, причем для того, чтобы вероятность возникновения эффекта вздувания коэффициента детерминации была бы не более 5%, можно рекомендовать значение уровня значимости регрессионной модели 0.11%, а значение уровня значимости отдельного регрессора - 0.68%. Это значит, что модель, содержащую не менее одного регрессора, следует считать значимой, если гипотеза о равенстве нулю коэффициента детерминации модели отвергнута с уровнем значимости 0.11%, а гипотезы о равенстве нулю каждого коэффициента модели (кроме свободного члена) отвергнуты с уровнем значимости 0.68%.

До сих пор считалось, что основным лимитирующим фактором при выборе метода ПНИМП является число включаемых в модель регрессоров, поскольку методы, осуществляющие просмотр и анализ значительного числа регрессионных уравнений, требуют очень большого времени счета, зависящего от числа регрессоров. В ходе проведенных исследований оказалось, что эффект Колмогорова появляется значительно раньше, чем исчерпываются возможности вычислительной техники. Поэтому главным лимитирующим фактором должен считаться этот эффект и в большинстве случаев достаточно использовать метод всех возможных регрессий. Разумеется, это не значит, что следует отказаться от других методов. При необходимости рассмотрения большого числа регрессоров их использование должно проходить в

значительно более жестких условиях, чем обычно принято, в первую очередь это относится к методам оценки значимости коэффициентов модели.

Проведенное в главе 3 исследование позволило получить следующие результаты:

1. показано, что главным лимитирующим фактором при выборе метода ПНИМП в регрессионном анализе должно быть не время вычислений, как это считалось ранее, а вероятность возникновения эффекта "вздувания" коэффициента детерминации;

2. выявлены отличия методов ПНИМП друг от друга по вероятности возникновения эффекта "вздувания" коэффициента детерминации в зависимости от числа регрессоров, включаемых в начальный набор и выбранных параметров методов;

3. построены модели взаимной зависимости числа регрессоров, включаемых в начальный набор регрессоров, параметров методов и числа случаев ошибочной работы методов (общее число моделей - 72);

4. сформулированы рекомендации по выбору методов ПНИМП и их параметров, направленные на снижение вероятности возникновения эффекта "вздувания" коэффициента детерминации. В частности, показано, что при применении пошаговых методов значение кстатистики включения/исключения следует брать не менее 8, а не 4, как это часто рекомендуется в статистической литературе;

В заключении приводятся основные результаты диссертации и указываются возможности их применения и развития.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Свидетельство об официальной регистрации программы для ЭВМ № 950298. - М.: РосАПО, 1995.

2. Pavlov Y. L., Leri M. M., Spector E. N., Stafeev S. V., Heninen A. J. Some problems of intellectualization of statistical packages //

Proceedings of the International Conference "Computer data analysis and modeling", v. 1, Minsk, 1995. - P. 116-120.

3. Лери M. M. Эмпирическая оценка мощности критериев согласия для базы знаний экспертной системы // Труды Петр. ГУ, серия "Прикладная математика и информатика", вып. 6,1997. - С. 187192.

4. Лери М. М. О выборе "наилучшей" регрессии // Труды Института ПМИ, вып. 1. - Петрозаводск: КарНЦ РАН, 1999. - С. 21-28.

5. Leri М. М. On one problem of A. N. Kolmogorov // Proceedings of the Fifth International Petrozavodsk conference 'Probabilistic methods in discrete mathematics", VSP, Utrecht, 2001. - P. 219225.

6. Leri M. M., Pavlov Y. L. On methods of searching for regression patterns // Proceedings of the Sixth International Conference "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods", v.2, Minsk, 2001. - P. 49-54.

Тезисы докладов

7. Лери M. М., Павлов Ю. Л. Разработка экспертных правил выбора критерия согласия // Тез. докл. VI науч. конф. стран СНГ "Применение многомерного статистического анализа в экономике и оценке качества продукции". - Москва, 1997. - С. 130-131.

8. Лери М. М. Об одной задаче А. Н. Колмогорова // Обозрение прикладной и промышленной математики, т. 7, вып. 1, 2000. -С. 190-192.

9. Лери М. М. Об использовании методов регрессионного анализа // Тез. докл. Всероссийской научной школы "Математические методы в экологии". - Петрозаводск: КарНЦ РАН, 2001. - С. 314316.

10. Leri М. М. On some approaches to the development of intellectua-lized statistical software // Extended abstracts of Russian-Scandinavian Symposium "Probability Theory and Applied Probability". -Petrozavodsk: KarRC RAS, 2006. - P. 35-37.

Изд. лиц. № 00041 от 30.08.99 г. Сдано в печать 17.08.06. Формат 60x84Vi6. Гарнитура Times. Уч.-изд. л. 1,0. Усл. печ. л. 1,2. Тираж 100 экз. Изд. № 52. Заказ № 596.

Карельский научный центр РАН Редакционно-издательский отдел Петрозаводск, пр. А. Невского, 50

Оглавление автор диссертации — кандидата технических наук Лери, Марина Муксумовна

Введение

1 Построение датчиков псевдослучайных чисел

1.1 Имитационное моделирование и датчики псевдослучайных чисел

1.2 Алгоритмы датчиков псевдослучайных чисел

1.3 Методика проведения экспериментов

1.4 Результаты и выводы

2 Исследование критериев согласия

2.1 Критерии согласия

2.2 Алгоритмы критериев согласия

2.3 Методика проведения экспериментов

2.4 Результаты и выводы

3 Исследование методов регрессионного анализа

3.1 Методы поиска наиболее информативного множества при знаков.

3.2 Задача А. Н. Колмогорова

3.3 Методика исследований.

3.4 Результаты исследований и выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Лери, Марина Муксумовна

Использование методов прикладной статистики за последние десятилетия вышло на новый уровень и приобрело массовый характер. Быстрое развитие вычислительной техники, в частности, появление персональных компьютеров, способствовало внедрению этих методов во все сферы человеческой деятельности [2,12,32,41,43]. В связи с этим, все более широкое распространение получают программные средства, предназначенные для статистического анализа данных. Однако, проблема некорректного использования статистического программного обеспечения остается острой до сих пор [5,23,41,43,54], поскольку уровень статистического образования в нашей стране остается недостаточным [43], а наиболее известные зарубежные продукты ориентированы на подготовленного пользователя. Даже такие известные программные средства как Systat, Statgraphics и Statistica почти не содержат функций помощи пользователю при выборе метода анализа данных и обучения работе с существующими методами [6,23,51]. Положение часто усугубляется еще и недостаточным знанием английского языка многими отечественными пользователями, а также распространением неквалифицированных (с точки зрения математической статистики) переводов документации зарубежных пакетов. В связи со всем вышесказанным одним из направлений разработки отечественного статистического программного обеспечения остается работа над его интеллектуализацией [1,6,43], т.е. над созданием программных средств статистического анализа данных, предназначенных не только для решения задач методами прикладной статистики, но и содержащих развитые информационно-справочные и экспертные системы. Такие системы должны включать в себя сведения обо всех используемых в пакете понятиях и методах математической статистики и помогать пользователю при выборе метода решения задачи, режима работы соответствующей программы и при интерпретации полученных результатов. Понятно, что рекомендации, предлагаемые системой, должны быть обоснованы, однако современная математическая теория на многие возникающие здесь конкретные вопросы ответа не дает, поэтому для разработки экспертных правил необходимо проводить соответствующие исследования.

Автор диссертации является одним из разработчиков системы "Статистик-Консультант" [36,39,45,60]. Согласно классификации, использованной в [6], данный пакет прикладных программ относится к специализированным методо-ориентированным пакетам. Пакет написан с помощью языка программирования Си. Заметим, что "Статистик-Консультант" был исторически первым отечественным пакетом статистического анализа данных, созданным в среде Windows, и получил высокую оценку специалистов [6,43]. Создание этого пакета стало возможным благодаря финансовой и организационной поддержке известной петрозаводской фирмы "Тандем".

В пакете статистических программ "Статистик-Консультант" реализованы три основные группы методов статистической обработки данных:

• методы сжатия информации,

• методы классификации,

• методы исследования зависимостей.

Методы сжатия информации (или методы описательной статистики) в пакете "Статистик-Консультант" включают в себя:

- вычисление оценок (несмещенных и смещенных) основных характеристик случайных величин;

- оценку функции распределения случайной величины и ее параметров по имеющейся выборке;

- генерацию выборки по заданному закону распределения;

- вычисление значений функции распределения и обратной к ней.

Автором диссертации были разработаны алгоритмы и написана часть программ вычисления значений прямых и обратных функций распределения для 15-ти наиболее употребительных законов. Также, были написаны программы генерации псевдослучайных чисел, соответствующих 15-ти законам распределения и программы трех критериев согласия [24,25,39].

Из методов классификации в системе "Статистик-Консультант" реализованы основные виды факторного анализа.

Методы исследования зависимостей в системе "Статистик-Консультант" включают в себя:

- корреляционный анализ: оценки коэффициентов ковариации и корреляции; проверку гипотезы о равенстве нулю коэффициента корреляции случайных величин; для случая временных рядов - оценки значений автокорреляционной и взаимно-корреляционной функций и проверку гипотез о равенстве нулю коэффициентов автокорреляции или взаимной корреляции;

- регрессионный анализ: регрессию парную, полиномиальную, множественную, пошаговую, интерактивную, два типа метода ветвей и границ, двухступенчатую регрессию и нелинейную регрессию.

При реализации методов регрессионного анализа были использованы оригинальные результаты, полученные сотрудниками Карельского научного центра РАН [9-11,34,35,37].

Данные в системе "Статистик-Консультант" представляются, как и в большинстве статистических пакетов, в виде таблиц, причем возможен их обмен со стандартными системами обработки данных (Excel, dBase и др.), а также редактор таблиц предоставляет богатые средства аналитических преобразований столбцов переменных. Возможности наглядного представления данных включают в себя построение гистограмм, позволяющих наглядно представить особенности выборки и получить приближенное изображение функции распределения и ее плотности; двумерный графический анализ данных, позволяющий осуществлять построение корреляционного поля, а также накладывать на него графики уравнений регрессии и произвольно указываемой аналитической функции; трехмерный графический анализ данных, позволяющий осуществлять трехмерную аппроксимацию исходных экспериментальных данных.

Система "Статистик-Консультант" рассчитана на пользователей, не имеющих специальной статистической подготовки, и может найти применение в любой области деятельности, требующей статистической обработки данных (наука, образование, экономика, медицина, социология, сельское хозяйство, промышленное производство и т.д.). В состав системы "Статистик-Консультант" входят справочная и экспертная подсистемы. Информационно-справочная подсистема содержит сведения о реализованных методах прикладной статистики и о необходимых для их использования понятиях. Экспертная подсистема (во взаимодействии со справочной) способна в какой-то степени заменить квалифицированного специалиста и может помочь выбрать подходящий метод решения конкретной задачи, задать наилучшие для текущих исходных данных значения параметров, адекватно интерпретировать полученные результаты и осуществить проверку статистических гипотез. Ясно, что для того, чтобы экспертная система могла давать статистически корректные рекомендации, использования субъективного опыта и мнения экспертов недостаточно. Таким образом, в ходе создания экспертной системы пакета "Статистик-Консультант" возникли вполне определенные вопросы, связанные с выбором метода анализа данных среди нескольких альтернатив. Более глобально эту проблему можно обозначить как необходимость формирования подхода к созданию отечественных программных средств прикладной статистики, основанного на предварительных (предпроект-ных) исследованиях, направленных на снижение числа ошибок при работе недостаточно подготовленного пользователя.

Исследование методов анализа данных и сравнение получаемых с их помощью результатов аналитическим путем представляется весьма затруднительным, особенно вследствие того, что необходимо учитывать различные условия возникновения данных. По инициативе авторов пакета "Статистик-Консультант" на страницах журнала "Заводская лаборатория" была развернута дискуссия о выборе путей решения этой проблемы [29,37]. Опираясь на рекомендации А. И. Орлова [29] (см., также, [31]), основным методом исследования в диссертации был выбран метод статистических испытаний, также известный, как метод Монте-Карло. Необходимо отметить, что на современном этапе развития вычислительной техники и ее возможностей метод статистических испытаний, приобретает все большую популярность в качестве методики сравнения методов анализа данных (см., например, [47]).

Таким образом, целью диссертации является построение математических моделей и разработка рекомендаций, используемых при выборе методов анализа данных в интеллектуализированном программном обеспечении прикладной статистики.

Диссертация состоит из введения, трех глав, заключения, списка литературы и 5 приложений.

Заключение диссертация на тему "Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики"

Заключение

Основные итоги диссертации состоят в следующем: Предложен общий подход к созданию интеллектуализированного статистического программного обеспечения. Этот подход заключается в проведении исследований, направленных на обеспечение достоверных выводов при использовании конкретных программ анализа данных. Поскольку во многих случаях математическая теория не дает исчерпывающих ответов на возникающие здесь вопросы, предложено проводить такие исследования экспериментально с использованием метода Монте-Карло. Полученные результаты позволяют формировать рекомендации пользователям при выборе метода статистического анализа. Такие рекомендации предназначены как для непосредственного применения, так и для включения их в базы знаний статистических экспертных систем.

Результаты, полученные в ходе этой работы включают в себя следующее:

1. Разработана система генераторов псевдослучайных чисел.

2. Разработаны и включены в статистический пакет "Статистик-Консультант" программы вычисления значений прямой и обратной функций наиболее употребительных законов распределения и программы проверки гипотез о соответствии выборки этим законам по трем критериям согласия.

3. Разработаны рекомендации пользователям по выбору критериев согласия при использовании статистического программного обеспечения и по определению некоторых условий проведения экспериментов при их планировании на основе построенных моделей зависимости мощностей рассмотренных критериев от уровня значимости, объема

4. Выявлены отличия методов поиска наиболее информативного множества признаков в линейном регрессионном анализе друг от друга по вероятности возникновения эффекта "вздувания" коэффициента детерминации в зависимости от числа регрессоров, включаемых в начальный набор и выбранных параметров методов, а также условия, при которых рекомендации по выбору методов ПНИМП не зависят от законов распределения регрессоров.

5. Построены модели взаимной зависимости числа регрессоров, включаемых в начальный набор регрессоров, параметров методов и числа случаев ошибочной работы методов.

6. Сформулированы рекомендации по выбору методов ПНИМП и их параметров, направленные на снижение вероятности возникновения эффекта "вздувания" коэффициента детерминации.

По мнению автора, предложенный подход может быть рекомендован к использованию создателями интеллектуализированного статистического программного обеспечения. Полученные в диссертации результаты охватывают только некоторые проблемы интеллектуализации, поэтому при развитии соответствующего программного обеспечения исследования необходимо продолжать. Заметим также, что предложенный подход является весьма трудоемким и представляется целесообразным разработать систему автоматизации проведения вычислительных экспериментов.

Библиография Лери, Марина Муксумовна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Айвазян С. А. Интеллектуализированные инструментальные системы в статистике и их роль в построении проблемно-ориентированных систем поддержки принятия решений // Обозрение прикладной и промышленной математики, т. 4, № 2, 1997.

2. Айвазян С. А. Программное обеспечение персональных ЭВМ по статистическому анализу данных // Компьютер и экономика: экономические проблемы компьютеризации общества. — М.: Наука, 1991. — С. 91-107.

3. Айвазян С. А., Енюков И. С., Мешалкин JI. Д. Прикладная статистика. Т. 1: Основы моделирования и первичная обработка данных.

4. М.: Финансы и статистика, 1983. — 471 с.

5. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Т. 2: Исследование зависимостей. — М.: Финансы и статистика, 1985. 487 с.

6. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Т. 3: Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с.

7. Айвазян С. А., Степанов В. С. Инструменты статистического анализа данных. // Мир ПК, № 8, 1997. С. 32-41.

8. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. М.: Мир, 1982. - 488 с.

9. Болыиев Л. Н., Смирнов Н. В. Таблицы математической статистики.- М.: Наука, 1965. 416 с.

10. Бондаренко В. М., Павлов Ю. J1. Система поиска регрессионных закономерностей "СПОР". — Петрозаводск: Карельский филиал АН СССР, 1991. 41 с.

11. Векслер J1. С. Статистический анализ на персональном компьютере // Мир ПК, № 2, 1992. С. 89-97.

12. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Методы обработки данных. — М.: Мир, 1980. — 610 с.

13. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн. 2. — М., 1987. 352 с.

14. Ермаков С. М. Метод Монте-Карло и смежные вопросы. — М.: Наука, 1975. 471 с.

15. Кельтон В., Лоу А. Имитационное моделирование. Классика CS. 3-е изд. — СПб.: Питер; Киев: Издат. группа BHV, 2004. — 847 с.

16. Кнут Д. Искусство программирования для ЭВМ. Т. 2: Получисленные алгоритмы. — М.: Мир, 1977. — 724 с.

17. Кнут Д. Искусство программирования для ЭВМ. Т. 3: Сортировка и поиск. М.: Мир, 1978. - 844 с.

18. Колчин В. Ф., Севастьянов Б. А., Чистяков В.П. Случайные размещения. М., 1976. - 224 с.

19. Королюк В. С., Портенко Н. И., Скороход А.В., Турбин А.Ф. Справочник по теории вероятностей и математической статистике. — М.: Наука, 1985. 640 с.

20. Кудлаев Э. М., Орлов А. И. Вероятностно-статистические методы исследования в работах А. Н. Колмогорова. // Заводская лаборатория, т. 69, № 5, 2003. С. 55-61.

21. Кулаичев А. П. Пакеты для анализа данных. // Мир ПК, № 1, 1995. С. 127-132.

22. Лери М. М. Эмпирическая оценка мощности критериев согласия для базы знаний экспертной системы // Труды Петр. ГУ, сер. "Прикладная математика и информатика", вып. 6, 1997. — С. 187-192.

23. Лери М. М., Павлов Ю. Л. Разработка экспертных правил выбора критерия согласия // Тез. докл. VI науч. конф. стран СНГ "Применение многомерного статистического анализа в экономике и оценке качества продукции", Москва, 1997. — С. 130-131.

24. Лери М. М. О выборе "наилучшей" регрессии // Труды Института ПМИ. Вып. 1. — Петрозаводск: Карельский научный центр РАН, 1999. С. 21-28.

25. Лери М. М. Об одной задаче А. Н. Колмогорова // Обозрение прикладной и промышленной математики, т. 7, вып. 1, 2000. — С. 190192.

26. Лери М. М. Об использовании методов регрессионного анализа // Тез. докл. Всероссийской научной школы "Математические методы в экологии", Петрозаводск, 2001. — С. 314-316.

27. Орлов А. И. Некоторые нерешенные вопросы в области математических методов исследования // Заводская лаборатория, т. 68, К2 3, 2002. С.52-56.

28. Орлов А. И. О развитии методологии статистических методов // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. — Пермь: Изд-во Пермского государственного университета, 2001. — С. 118-131.

29. Орлов А. И. Современная прикладная статистика // Заводская лаборатория, т. 64, № 3, 1998. С. 52-60.

30. Павлов Ю. JI. Прикладной статистике в Карельском НЦ РАН 25 лет // Тез. докл. юбилейной научной конф., Петрозаводск: Карельский научный центр РАН, 1996. - С. 253-254.

31. Павлов Ю. Л., Спектор Е. Н. Сравнение двух критериев отсечения в регрессионном методе ветвей и границ // Сборник трудов. Вып. 1. — Петрозаводск: Карельский научный центр РАН, 1994. — С. 25-30.

32. Павлов Ю. Л., Сысоева М. И. Алгоритм и программа критерия пустых ящиков // АСНИ регионального научного центра. — Петрозаводск: КФ АН СССР, 1984. С. 42-49.

33. Павлов Ю. JI., Хенинен А. Я. "Статистик-Консультант", или еще один довод в пользу неизбежного. // Мир ПК, № 5, 1994. — С. 92-94.

34. Павлов Ю. Л., Хенинен А. Я. Проблема усиления гипотез регрессионного анализа // Заводская лаборатория, т. 61, № 1, 1995. — С. 5355.

35. Петрович М. Л. Регрессионный анализ и его математическое обеспечение на ЕС ЭВМ. М., 1982. - 199 с.

36. Свидетельство об официальной регистрации программы для ЭВМ № 950298. М.: РосАПО, 1995.

37. Сильвестров Д. С. Программное обеспечение прикладной статистики. — М.: Финансы и статистика, 1988. — 240 с.

38. Тарасенко Ф. П. Непараметрическая статистика. — Томск, ТГУ, 1976. 292 с.

39. Тюрин Ю. Н., Макаров А. А. Статистический анализ данных на компьютере. / Под ред. В. Э. Фигурнова. — М.: ИНФРА-М, 1998. — 528 с.

40. Харин Ю. С., Малюгин В. И., Кирлица В. П., Лобач В. И., Хацке-вич Г. А. Основы имитационного и статистического моделирования. Минск: Дизайн ПРО, 1997. - 288 с.

41. Хенинен А. Я., Павлов Ю. Л. Статистик-Консультант. Версия 1.0. Руководство пользователя. — Петрозаводск, Тандем, 1993. — 140 с.

42. Шеннон Р. Имитационное моделирование систем искусство и наука. - М.: Мир, 1978.- 418 с.

43. Chistjakov S. P. On joint using of statistical tests // Proceedings of the Fifth International Petrozavodsk conference "Probability methods in discrete mathematics". VSP, Utrecht, 2001. - P. 159-162.

44. Csorgo M., Guttman I. On the empty cell test // Technometrics, v. 4, № 2, 1962. P. 235-247.

45. David F. N. Two combinatorical tests whether a sample has come from a given population // Biometrica, v. 37, 1950. — P. 97-110.

46. Gale W. A., Hand D. J., and Kelly A. E. Statistical applications of artificial intelligence, in Handbook of Statistics, v. 9(16), ed. C.R. Rao. Elsevier, 1993. P. 535-576.

47. Furnival G. M., Wilson R. W. M. Jr. Regressions by leaps and bounds // Technometrics, v. 16, 1974. P. 499-511.

48. Hahn G. J. More Intelligent Statistical Software and Statistical Expert Systems: Future Directions // The American Statistician, v. 39, № 1, 1985. P. 1-16.

49. Kitabatake S. A remark on a non-parametric test // Math.lap., v. 5, № 1, 1958. P. 45-49.

50. Lehmer D. H. Mathematical methods in large-scale computing units // Proc. 2nd Symposium on Large-Scale Digital Calculating Machines, Harvard University Press, 1951. — P. 141-146.

51. Leri M. M. On one problem of A. N. Kolmogorov // Proceedings of the Fifth International Petrozavodsk conference "Probabilistic methods in discrete mathematics". VSP, Utrecht, 2001. - P. 219-225.

52. Leri M. M. On some approaches to the development of intellectualized statistical software // Extended abstracts of Russian-Scandinavian Symposium "Probability Theory and Applied Probability". — Petrozavodsk: KarRC RAS, 2006. P. 35-37.

53. Leri M. M., Pavlov Y. L. On methods of searching for regression patterns // Proceedings of the Sixth International Conference "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods", v. 2, Minsk, 2001. P. 49-54.

54. Pavlov Y. L., Leri M. M., Spector E. N., Stafeev S. V., Heninen A. J. Some problems of intellectualization of statistical packages // Proceedings of the International Conference "Computer data analysis and modeling", v. 1, Minsk, 1995. P. 116-120.

55. Okamoto M. On a non-parametric test // Osaka I.Math., v. 4, 1952. — P. 47-85.

56. Используемые обозначения: д мощность критерия согласия; п - число элементов выборки; а - уровень значимости; обозначения параметров распределения F\ приведены в скобках, следом за названием закона.1. Fq равномерное

57. Fq равномерное; F\ - нормальное (т,а)11.1. Критерий х~квадрат (550 < п < 1000; -1000 < т ^ 1000; 1 < а < 500; 0.01 ^ а < 0.1):

58. Н = -0.7 0.0022п + 2.5а + 1.2 • 10"V - О.ООЗпа + 0.39Inn1. R2 = 0.9511.2. Критерий Колмогорова-Смирнова (22 ^ п ^ 1000; -1000 < т < 1000; 1 < а < 500; 0.01 ^ а < 0.1):

59. Н = -0.77 0.00831п + 4.2 ■ 10~6т + 2а + 3 • 10~6п2- 0.0023па + 0.2^п1. R2 = 0.9611.3. Критерий пустых ящиков (20 ^ n ^ 1000; -1000 < т ^ 1000; 1 500; 0.01 < 0.1):р, = -1 -0.000378п + 2.114а -0.002па + 0.333Inn1. R2 = 0.92

60. Fo нормальное; jF\ - равномерное (a, 6)21.1. Критерий х-квадрат (12 ^ n ^ 1000; -1000 1000; 0.01 ^ a ^ 0.1):

61. Fq логнормальное; F\ - нормальное (m, <r)32.1. Критерий х-квадрат (10 ^ n ^ 1000; 300 ^ m ^ 1000; 1 ^ a ^ 100; 0.01 < a ^ 0.1):fi = 0.16 + 0.0005n + 0.97a 3.4 • 10"7n2 + 6.9 • ЮЛт2- 3.5 • 106mo- + 0.0087(ia 0.047Inn + 0.001a-Inn

62. И = -0.1 + 0.0004т 2.7 • 10~7т2 - 2.89 • 10~6тсг+

63. О.ОИсго; + 2 • 10"бП(7 + 0.000432(7Inn1. R2 = 0.62

64. Критерий пустых ящиков (10 < п ^ 1000; 300 ^ т ^ 950; 1 < 100; 0.01 ^ а ^ 0.1):1 = -0.1 О.ОООЗп + а + 2 • 10~7п2 - 7.7 • 10~7Ш(7+0.0405 Inn + 0.0002cr Inn1. R2 = 0.61

65. Fq логнормальное; F\ - %-квадрат (/)

66. Критерий х-квадрат (10 ^ n ^ 1000; 1 < / < 33; 0.01 < а < 0.1):

67. Н = 0.2 + 0.001766п 0.01/ + 2а - 1 • 10"6п2+0.000123/2 0.002па - 0.000367/Vn1. R2 = 0.86

68. Критерий Колмогорова-Смирнова (30 < n ^ 1000; 2 < / < 5; 0.01 < а ^ 0.1):

69. Н = -0.4656 + 0.00197п + 0.2/ + 1.52а 1.4 • 10бп2+0.000175п/ + 0.1 Inn 0.056/Innй2 = 0.94

70. Критерий пустых ящиков (19 < п ^ 1000; 1 < / < 100; 0.01 < а < 0.1):

71. Н = -0.2 0.0002п + 0.001/ + 2а + 3 ■ 107п2 - 0.000017п/-- 0.01 fa + 0.06 Inn - 0.0005n In / + 0.0004пу/71. R2 = 0.87

72. Fq логнормальное; F\ - Стьюдента (/)

73. Все критерии (10 < n < 1000; 1 < / ^ 1000; 0.01 ^ a < 0.1): проверка невозможна, т.к. все элементы выборки должны быть > 0.

74. О.ООООЗ2/2 1.6 • 10~6n/i - 6.3 • 10~6n/2 - О.ООООЗ6/1/21. R2 = 0.5335.3. Критерий пустых ящиков (100 < п < 1000; 2 < Д < 100; 2 < Д < 100; 0.01 < а <0.1):1 = -0.19 а + 0.00003/1 + 3.1 • ЮЛгД + 0.00001п/2- O.OOOOI/1/2 + 0.11 Inn 0.00054/2^п1. Я2 = 0.72

75. Fq х-квадрат; Fi - логнормальное (m, a)

76. Критерий х-квадрат (74 ^ n < 1000; -4 < m ^ 4; 1 ^ a ^ 5; 0.01 < a < 0.1):fi = -0.3 + O.OOlln 0.01m + 0.177(7 + 0.5a + 0.019m2+0.396Inn 0.04(7Inn - 0.00315m2Inn - 0.08Vn1. R2 = 0.58

77. Критерий Колмогорова-Смирнова (10 ^ n ^ 1000; -4 ^ m ^ 4; 1 ^ a < 5; 0.01 ^ a ^ 0.1):

78. H = -0.5 + 0.0012П + 0.2(7 + 0.02m2 3 • 10~5nm+0.4Inn 0.04(7Inn - 0.003m2Inn - 0.085Vn2 = 0.53

79. Критерий пустых ящиков (41 ^ n ^ 1000; -7 ^ m ^ 7; 1 ^ a ^ 5; 0.01 ^ a ^ 0.1):

80. H = -0.7 + 0.047m 0.002m2 - 0.043(72 - 2 ■ 10~5nm+0.00087по-- O.Olmo-+ 0.198Inn + 0.2(7Inn 0.065crv/n1. R2 = 0.8

81. Fo х-квадрат; F\ - Стьюдента (/)се критерии (10 n ^ 1000; 1 ^ / ^ 1000; 0.01 ^ a < 0.1): проверка невозможна, т.к. все элементы выборки должны быть ^ 0.

82. F0 х-квадрат; Fi - Фишера (/ь/2)

83. Fq Стьюдента; - Фишера (Д, /2)

84. Критерий х-квадрат (20 < п < 1000; 2 < Д < 200; 2 < /2 < 200; 0.01 < а < 0.1):ju = 1 + O.OOl/i 4а - 2 • 10-6/i2 + 6.7 • l(T7n/i+0.004/ia 0.000233/i Inn + 0.968аInn - 0.112а^1. R2 = 0.36

85. Критерий Колмогорова-Смирнова (80 < n < 1000; 2 < Д < 200; 2 < /2 < 200; 0.01 < а < 0.1):л = 1 + 0.00077/i 2.3а - 1.3 ■ Ю-6/? + 4 • 10~7n/i+0.00266/ia 0.00015/i Ьп + 0.6аInn - O.lav^1. Я2 = 0.35

86. Критерий пустых ящиков (10 < п < 1000; 2 < Д < 200; 2 < Д < 200; 0.01 < а < 0.1):1. М = 1

87. Fo Стьюдента; i*i - бета (р, q)

88. Критерий х-квадрат (10 < п < 1000; 0.1 < р < 5; 0.1 < q < 5; 0.01 < а < 0.1):i = 1 + О.ООООЗЗп + 0.0064р + 0.0061g + 0.1478а- 0.0032рд 0.0175Inn - 20.88—п1. R2 = 0.28

89. Критерий Колмогорова-Смирнова (50 < п < 1000; 0.1 < р < 5; 0.1 5; 0.01 < а <0.1):м = 1

90. Критерий пустых ящиков (10 < п < 1000; 0.1 < р < 5; 0.1 < q < 5; 0.01 < а < 0.1):

91. F0 Фишера; F\ - равномерное (а, Ъ)

92. Все критерии (10 ^ n ^ 1000; -1000 1000;001 0.1): /х = 1

93. Fq Фишера; F\ - нормальное (га, а)

94. Все критерии (10 ^ п < 1000; 0 < т < 1000; 1 ^ о < 500; 0.01 ^ а < 0.1): ц = 1

95. Fq Фишера; F\ - логнормальное (га, а)

96. Все критерии (10 ^ п ^ 1000; -7 ^ т ^ 7; 1 ^ а < 5; 0.01 ^ а ^ 0.1): 11 = 1

97. F0 Фишера; F\ - х-квадрат (/)

98. Все критерии (10 ^ п ^ 1000; 1 < / < 1000; 0.01 ^ а < 0.1): ц = 1

99. F0 Фишера; F\ - Стьюдента (/)

100. Все критерии п = 10; / = 1,5; 0.01 ^ а ^ 0.1):7. Fq бета

101. Fq бета; F\ - нормальное (m, а)

102. Все критерии (10 < n < 1000; -1000 ^ m sC 1000; 1 ^ a ^ 1000; 0.01 ^ a ^ 0.1):проверка невозможна, т.к. все элементы выборки должны е 0,1.

103. Fo бета; F\ - %-квадрат (/)1. Все критерии:при п = 10; / = 1; 0.01 < а < 0.1: ц = 1 ф при 10 < п < 1000; 1 < / ^ 1000; 0.01 ^ а ^ 0.1: проверка невозможна,т.к. все элементы выборки должны е 0,1.

104. Fo бета; F\ - Стьюдента (/)

105. Все критерии (10 ^ п ^ 1000; 1 ^ / ^ 1000; 0.01 ^ а «$ 0.1): проверка невозможна, т.к. все элементы выборки должны G 0,1.

106. F0 бета; Fx - Фишера (/ь /2)1. Бее критерии:при п = 10; Д = 2; Д = 2,200; 0.01 < а < 0.1: д = 1 при 10 < п ^ 1000; 2 < Д < 200; 2 < Д < 200; 0.01 ^ а ^ 0.1: проверка невозможна, т.к. все элементы выборки должны £ 0,1.

107. Fq гамма; F\ - нормальное (m, сг)5ce критерии (10 ^ n ^ 1000; 1 < a < 500; 0.01 < a < 0.1): при -1000 < m < 0:проверка невозможна, т.к. все элементы выборки должны быть ^ 0; при 0 < т < 1000: /х = 1

108. Fq гамма; F\ - Стьюдента (/)

109. Все критерии (10 ^ n ^ 1000; 1000; 0.01 ^ а ^ 0.1):проверка невозможна, т.к. все элементы выборки должны быть ^ 0.

110. Fq гамма; F\ - Фишера (Д, /2)86.1. Критерий х-квадрат (100 < п < 500; 35 < Д < 100; 19 < Д < 83; 0.01 ^ а < 0.0787):ji = 0.7 0.0049п 0.013/2 - 1.6а - 8.5 • 10Лг2+0.00014/| + 2.8 ■ 10~6n/i + 0.0000126п/2 0.00256/2 Inп1. R2 = 0.94

111. И = -0.57 О.ОООЗп - 0.0034/ + 0.64а+31 • Ю-6/2 + 0.18Inn + 0.2In/ 0.00013/lnn1. R2 = 0.71

112. Fo экспоненциальное; Fi - Фишера (/i, /2)96.1. Критерий х~квадрат (10 ^ n ^ 1000; 2 < Д < 100; 23 < Д < 100; 0.01 < а < 0.099):ц = -0.22 О.ОООбп + O.Ol/i - 0.91а- 0.000124Д2 + 0.000032/1 + 6.4 ■ 10~6п/2+

113. O.OOOI/1/2 + 0.24Inп 0.0025/2Inn1. R2 = 0.8396.2. Критерий Колмогорова-Смирнова (10 ^ п ^ 1000; 5 < Д < 100; 26 ^ Д ^ 100; 0.01 < а ^ 0.099):= -0.8 0.0018n + O.Ol/i + 7.4 ■ 10~7п2- 0.00012/2 + 0.000044/2 + 7 ■ Ю~6п/2+

114. O.OOOI/1/2 + 0.4Inn 0.0028/2Inn1. Я2 = 0.8296.3. Критерий пустых ящиков (10 ^ п ^ 1000; 25 ^ Д < 97; 10 ^ Д ^ 89; 0.01 ^ а ^ 0.1):ц = -0.9 0.002п + 0.0098/1 + 8.7 ■ 10~V- O.OOOll/i2 + 0.00003/1 + 0.000096/1/2+

115. Inn + 0.00048/ilnn 0.002/2lnn

116. Fo Колмогорова; Fi - нормальное (т, сг)5се критерии (10 < п < 1000; 300 < т ^ 1000; 1 < <г < 500; 0.01 < a < 0.1): /х = 1

117. Inn + 0.0073m Inn + 0.007a2 Inn1. R2 = 0.76103.3. Критерий пустых ящиков (45 ^ п ^ 1000; 4.3; 0.01 ^ а < 0.1):

118. Н = -0.412 0.002п - 0.017т + 1.6 • ЮЛг2 - 0.005т2- 0.0243сг2 0.00031шт + 0.167Inn + 0.067<jlnn1. R2 = 0.56

119. Fq Колмогорова; F\ - %-квадрат (/)104.1. Критерий х~квадрат (10 ^ п < 1000; 1 ^ / ^ 5; 0.01 ^ а ^ 0.1):= 0.811 0.3/ - 0.0295/2 + О.ОООбп/ + 0.19/Inn - 0.05/v^1. R2 = 0.86104.2. Критерий Колмогорова-Смирнова (34 ^ п ^ 1000; 1 ^ / ^ 10;001 ^ а «С 0.1):

120. Fo Колмогорова; F\ - Стьюдента (/)

121. See критерии (10 ^ п ^ 1000; 1 < / ^ 1000; 0.01 < а «С 0.1): проверка невозможна, т.к. все элементы выборки должны быть ^ 0.106.1. Критерий х-квадрат (13 < п < 1000; 2 < /2 < 200; 2 < /2 < 200; 0.01 < а < 0.1):