автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическое и программное обеспечение оценки достоверности результатов массового тестирования

кандидата технических наук
Карпинский, Виктор Болеславович
город
Великий Новгород
год
2009
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение оценки достоверности результатов массового тестирования»

Автореферат диссертации по теме "Математическое и программное обеспечение оценки достоверности результатов массового тестирования"

На правах рукописи

О в А В Г 2009

Карпинский Виктор Болеславович

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ОЦЕНКИ ДОСТОВЕРНОСТИ РЕЗУЛЬТАТОВ МАССОВОГО ТЕСТИРОВАНИЯ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

Великий Новгород, 2009

003475138

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Новгородский государственный университет имени Ярослава Мудрого»

Научный руководитель:

кандидат физико-математических наук, доцент Карданова Елена Юрьевна

Официальные оппоненты:

доктор технических наук,

профессор Нейман Юрий Михайлович кандидат физико-математических наук, доцент Тихомиров Алексей Сергеевич

Ведущая организация: ФГУ Федеральный центр тестирования

Защита состоится 10.09.2009

на заседании диссертационного совета Д 212.168.04

государственного образовательного учреждения высшего профессионального образования «Новгородский государственный университет имени Ярослава Мудрого»,

юридический адрес: 173003, Великий Новгород, ул. Большая Санкт-Петербургская, д.41

С диссертацией можно ознакомиться в библиотеке государственного образовательного учреждения высшего профессионального образования «Новгородский государственный университет имени Ярослава Мудрого»

Автореферат разослан Ученый секретарь

диссертационного совета

кандидат физико-математических наук, доцент Токмачев Михаил Степанович

Общая характеристика работы

Аюуальносгь темы исследования. Решение прикладных проблем и исследование естественнонаучных, социальных, экономических и технических объектов зачастую сводится к задаче измерения их латентных (скрытых от наблюдения) характеристик. Это измерение возможно только по данным тестирования (мониторинга). Полученная оценка латентной характеристики должна быть объективна, надёжна и достоверна. Поэтому актуальной является задача разработки специальных математических методов, позволяющих оценивать достоверность измерения латентных характеристик объектов.

Важным частным случаем является педагогическое тестирование. Для управления в сфере образования необходима объективная оценка качества подготовки лиц, освоивших образовательные программы. Это качество (уровень подготовленности) является латентной характеристикой и оценивается по данным тестирования с использованием заданий стандартизированной формы — контрольных измерительных материалов.

В отечественной и в западной науке предложены методы, позволяющие делать заключение о достоверности результатов тестирования. Однако, как было . показано на начальных этапах настоящего исследования, их эффективность недостаточна в случае массового тестирования (характерного, например, для единого государственного экзамена (ЕГЭ), где число испытуемых измеряется сотнями тысяч), поскольку в этом случае цена вопроса особенно велика, и требуется разработка более эффективных методов.

В силу присущих им преимуществ (объективности, возможности контроля точности измерения, метрического характера шкалы) наиболее обоснован выбор для решения данной задачи семейства математических моделей тестирования, предложенного датским учёным Георгом Рашем. В данном диссертационном исследовании используется политомическая модель Раша. В рамках этой модели западными специалистами предложен ряд статистических критериев для проверки гипотезы о достоверности или недостоверности результатов тестирования. Однако эффективность этих методов была недостаточно исследована для случая массового тестирования. Таким образом, задача исследовать имеющиеся методы оценки достоверности результатов тестирования, выбрать или сконструировать статистический критерий, достаточно эффективный для массового тестирования, разработать и реализовать технологию оценки достоверности результатов массового тестирования является актуальной.

Целью исследования является разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов оценивания достоверности результатов массового тестирования на основе математической модели Раша.

Для достижения поставленной цели необходимо решить следующие задачи:

— исследование и обоснованный выбор математических моделей, позволяющих оценивать достоверность результатов тестирования;

— разработка математических методов и алгоритмов проверки соответствия экспериментальных данных математической модели для выявления в них случаев искажения, приводящего к недостоверности результатов измерения латентной характеристики;

— развитие приближённых статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения;

—разработка, обоснование и тестирование эффективных методов и алгоритмов обработки результатов массового тестирования с применением ЭВМ;

— их реализация в виде комплекса проблемно-ориентированных программ, пригодных как для прикладного использования, так и для проведения вычислительных экспериментов;

— экспериментальная проверка разработанных методов и алгоритмов с использованием реальных данных ЕГЭ.

Объектом исследования являются массовое тестирование (мониторинг) и его математические модели в сфере образования, а также иных социальных, экономических, технических и естественнонаучных сферах деятельности.

Предметом исследования является достоверность результатов массового тестирования (мониторинга) в части оценивания латентных характеристик объектов для принятия решений в указанных сферах.

Методы исследования включают в себя:

1) методы теории моделирования и параметризации тестов, основанные на математической модели Г. Раша;

2) методы математической статистики, в частности, методы проверки статистических гипотез и методы аппроксимации и сглаживания эмпирических распределений;

3) методы математической теории принятия решений, в частности, методы оптимизации и оценивания рисков;

4) методы алгоритмизации и программной реализации математических моделей;

5) вычислительный эксперимент на реальных и модельных данных.

Научная новизна разработанных автором методов и алгоритмов оценки

достоверности результатов массового тестирования обусловлена следующими новыми решениями:

— исследована эффективность ранее известных методов выявления недостоверных результатов измерения испытуемых для целей массового тестирования или мониторинга;

— разработан композиционный статистический критерий для проверки гипотезы о достоверности результатов массового тестирования;

— разработан метод оптимизации критических значений используемых статистик;

—разработана технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения;

— разработан комплекс программ для реализации указанных математических моделей, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретной технологии обработки данных массового тестирования (мониторинга), включая ЕГЭ, применимой для выявления случаев недостоверности его результатов.

Достоверность научных результатов обеспечивается постоянным, на каждом этапе исследования, контролем прецизионности используемых методов и процедур в соответствии с требованиями государственной системы обеспечения единства измерений, а также всесторонней эмпирической проверкой результатов сериями вычислительных экспериментов с использованием реальных данных ЕГЭ за прошлые годы. Все используемые методы на основе метрологических показателей (ошибка измерения, прецизионность, воспроизводимость, статистическая достаточность) признаны дающими достоверный результат на соответствующем задаче уровне значимости.

На защиту выносятся:

1) алгоритм формирования композиционного статистического критерия для проверки гипотезы о достоверности результатов массового тестирования;

2) метод оптимизации критических значений используемых статистик на специально конструируемых модельных данных;

3) технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения;

4) комплекс программ для реализации указанных моделей, методов и алгоритмов, в том числе для проведения вычислительных экспериментов.

Апробация результатов исследования и публикации. Основные результаты исследования были доложены на VIII Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, РФ, 2007), Международной конференции «Моделирование и параметризация педагогических тестов» (Минск, Беларусь, 2007), Международной научно-методической конференции «Математика в ВУЗе» (Санкт-Петербург, 2007), VIII Всероссийской научно-методической конференции «Развитие тестовых технологий в России» (Москва, 2006). Автор участвовал в следующих научно-исследовательских проектах, связанных с темой исследования: «Выработка критериев аннулирования результатов отдельных испытуемых при проведении ЕГЭ и ЦТ» (Федеральный центр тестирования МО РФ, 2006); «Разработка структуры статистического анализа результатов ЕГЭ с целью обнаружения недостоверных результатов ЕГЭ» (Федеральный центр тестирования МО РФ, 2008). По теме диссертации опубликовано 10 статей.

Структура и объём диссертации. Диссертация состоит из введения, трёх глав и заключения, изложенных на 94 страницах, а также списка литературы и

приложений. В работе имеется 31 рисунок и 22 таблицы. Список литературы содержит 56 наименований.

Содержание работы

Во введении обоснована актуальность работы, сформулированы цель и задачи диссертационного исследования, охарактеризованы его объект, предмет и методы, отмечены научная новизна, практическая значимость и достоверность результатов, приведены положения, выносимые на защиту, и сведения об апробации результатов исследования и публикациях по теме диссертации.

В главе 1 «Математическое моделирование тестирования» рассматриваются математические модели тестирования, делается выбор полигамической модели Раша, указываются её преимущества и приводятся статистики согласия, используемые для оценки достоверности результатов тестирования и подлежащие исследованию в данной работе.

В параграфе 1.1 «Математические модели Раша» описывается одна из главных моделей теории моделирования и параметризации тестов — полигамическая модель Раша. Пусть тест состоит из I заданий, каждое из которых имеет максимальный балл B¡ и трудности {<%} (г=1../,у'=1.Д) перехода при выполнении задания i с категории (J-1) на категорию j, то есть получения j баллов при условии, что (/-1) балл уже заработан (полагается <5,0=0). Пусть тест выполняли N испытуемых (w= 1JV), каждый со своим уровнем подготовленности вп. В этом случае

схр(кО„ -¿Я,)

P&ASMh 1,-— О)

1-0 о

есть вероятность получения к баллов испытуемым п за выполнение задания i.

Величины вп и óij в совокупности являются параметрами модели Раша (латентными). Наблюдаемыми являются элементы матрицы ответов, то есть баллы x„¡. Строка матрицы называется профилем испытуемого. Суммы баллов по строкам

/

= •

;=i

называются первичными баллами испытуемых и являются (наряду с первичными баллами заданий) достаточными статистиками для параметров модели Раша. Способы оценивания параметров модели Раша по матрице ответов известны (метод моментов, метод наибольшего правдоподобия, метод симметрических функций и т.д.) и в диссертационной работе подробнее не рассматриваются.

Модель Раша (1) обладает следующими преимуществами:

— объективность измерения в смысле его инвариантности как по отношению к объекту измерения (испытуемому), так и по отношению к средству измерения (тесту);

— определённость терминов «уровень подготовленности испытуемого» и «уровень трудности задания»;

— метрический характер шкалы;

— формальная определённость единицы измерения (логит);

— возможность выравнивания на единой шкале результатов измерения разных групп испытуемых разными вариантами теста;

— возможность определять точность полученных результатов измерения;

— возможность извлекать из матрицы ответов дополнительную, по отношению к основной цели измерения, информацию об испытуемых и заданиях теста.

Вследствие того, что преимущества модели Раша столь значительны, именно она используется при обработке данных ЕГЭ в Федеральном центре тестирования Министерства образования и науки Российской Федерации. Это послужило дополнительной причиной выбора модели (1) для настоящего диссертационного исследования.

В параграфе 1.2 «Статистические критерии достоверности измерения» рассматриваются статистики согласия — вычисляемые на основе матрицы ответов величины, характеризующие близость модели Раша с заданными параметрами реальным данным и традиционно используемые для выявления искажений в матрице ответов. Доказывается, что критерии, основанные на статистиках согласия, недостаточно эффективны для оценки достоверности результатов массового тестирования, в частности, в силу того, что из-за особенностей их распределения традиционный выбор критических значений оказывается необоснован.

Рассмотрение статистик согласия начинается с базовой для них статистики — нормированных уклонений

хт-М{хп-1)

Ут Гги-7 ' К '

где хы — балл, полученный испытуемым и с уровнем подготовленности в„ за выполнение задания / с максимальным баллом Д и трудностями {5$} (/=0.Д), <5,9=0; М(х„^ — математическое ожидание этого балла с учётом формулы вероятностей (1)

д

М(О = 1>К0„,{8у.}Д) , (3)

*=о

Щхщ) — его дисперсия

А

£>(*„/) = 2>-Л/(*„,))2-р(в„,{^},к) . (4)

к=0

В предположении, что нормированные уклонения имеют приблизительно стандартизованное нормальное распределение N(0; 1), среднее арифметическое их квадратов

в

1 1=1

где Ум — нормированные уклонения (2), I — количество заданий в тесте, называемое общей статистикой согласия, имеет распределение, близкое к ^-распределению Фишера-Снедекора (оно же распределение дисперсионного отношения) с числом степеней свободы числителя / и бесконечным числом степеней свободы знаменателя, то есть Р(1;<х>).

Такая статистика может быть стандартизована разными приближёнными методами, например, «преобразованием кубического корня»

«^-»•тйг^ • <6)

где и — статистика, а 0(11) — её дисперсия. Применительно к общей статистике согласия (5) это даёт стандартизованную общую статистику согласия ¡(Щ, имеющую распределение, близкое к N(0; 1), если распределение самой статистики 1/„ близко к Р([;аз).

Статистика, вычисляемая по формуле

К = , (7)

Ел/Д^)

гдеущ — нормированные уклонения (2), I— количество заданий в тесте, В(хп1) — дисперсия (4), называется взвешенной общей статистикой согласия. Используется также её стандартизованный (6) аналог ¡(Шп). Статистика, вычисляемая по формуле

Г Л2

1 '

^Ут'лЩх^)

у^С,

£/>(*„,)

(8)

где уп1 — нормированные уклонения (2), В(хп) — дисперсия (4), J — количество групп заданий, на которые (полностью и без пересечений) разбит тест, О} — сами эти группы, ]-1.-/, называется межгрупповой статистикой согласия. Различные способы разбиения теста на группы заданий дают разные версии межгрупповой статистики согласия, так что формула (8) подразумевает целое семейство статистик согласия. Например, тест может делиться на две или более групп по трудности, по типу задания и т.п. В указанном выше смысле статистика У„ имеет приближённо распределение Р^-1;<я). Рассматривается также её стандартизованный аналог ((У„).

Статистика, вычисляемая по формуле

где gj — объём группы Ор ] = 1.-/, предложена автором и названа суммарно-групповой статистикой согласия. У неё аналогичные межгрупповой статистике согласия варианты по разбиению теста.

Выбор критических значений статистик согласия не должен зависеть от факторов, посторонних для задачи выявления искажений в измерении, и даже от уровня подготовленности испытуемого и структуры теста. В соответствии с тем, что распределение Р(1;<х) имеет квантиль на уровне значимости а=0,05, равный 1,24 при 7=100, 1,35 при 1=50, 1,46 при 1=30, в зарубежной литературе для общей статистики согласия и„ (5) и взвешенной общей статистики согласия Ж„ (7) используется критическое значение порядка 1,2-1,4. Для стандартизованных версий статистик согласия, по аналогичным соображениям, в качестве критического значения берётся число 2. Однако такой выбор критических значений обеспечит высокую эффективность выявления недостоверных результатов массового тестирования только при условии, что распределение статистик согласия соответствуют теоретическому, то есть, в конечном итоге, что распределение базовой статистики, нормированных уклонений (2), с достаточной точностью аппроксимируемо N(0; 1). Ряд эмпирических соображений заставил усомниться в этом, что сделало необходимым исследование эффективности и распределения статистик согласия. Это исследование составило следующую часть данной диссертационной работы.

В главе 2 «Исследование статистик согласия» разработан метод исследования эффективности статистик согласия на специально конструируемых модельных данных. Исследовано распределение базовой статистики (нормированных уклонений) и обнаружены существенные отличия её эмпирического распределения от N(0; 1). Более того, показано, что эти отличия неустранимы традиционными методами. Также исследованы распределение и эффективность остальных статистик согласия.

В параграфе 2.1 «Моделирование результатов тестирования» разработано несколько методов моделирования матриц ответов на основе математической модели Раша (1). Первый метод предусматривает по полученным из реальной матрицы ответов параметрам модели (уровни подготовленности испытуемых и трудности заданий теста) построение модельных матриц ответов, полностью соответствующих (1). К ним контролируемо добавляются профили, моделирующие искажения типа списывания / подлога. При моделировании ответов испытуемых в соответствии с формулой вероятности (1) используется метод Монте-Карло. Такое моделирование выполнено на основе данных ЕГЭ за прошлые годы по предметам с различным количеством и распределением заданий и испытуемых. Сведения о них приведены в таблице 1. Для других случаев, не связанных с ЕГЭ и даже вообще с педагогическим тестированием, получены аналогичные выводы, но в силу особой актуальности оценки

достоверности результатов ЕГЭ, для демонстрации этих выводов в диссертационной работе используются преимущественно данные ЕГЭ.

Контрольные измерительные материалы ЕГЭ включают в себя задания разных типов. Тип А содержит задания закрытого типа, оцениваемые дихотомически. Тип В может включать задания других типов; оцениваемые дихотомически или политомически. Тип С включает задания открытого типа, оцениваемые политомически. Структура теста учитывается при моделировании и отражена в таблице 1.

Таблица 1. Описание реальных данных

Предмет Количество испытуемых Количество заданий Подготовленность Трудность

Всего Тип А Тип В Тип С Средняя Мт Мах Средняя Мт Мах

География 655 50 32 12 6 0,22 -2,25 4,05 0 -1,79 3,01

История 965 51 33 10 8 0,01 -2,40 3,50 0 -2,56 2,65

Литература 489 35 15 12 7 0,76 -3,33 5,13 0 -3,14 2,78

Математика 1339 26 10 11 5 0,13 -5,46 5,47 0 -5,28 4,31

Обществоведение 1600 50 38 4 8 0,73 -1,79 3,32 0 -3,10 2,64

Второй метод моделирования предусматривает произвольное контролируемое конструирование закона распределения в модельной матрице испытуемых по их уровням подготовленности и заданий теста по их трудности. Было выбрано несколько по возможности разнообразных типов сочетания распределения испытуемых и распределения заданий. Они перечислены в таблице 2. В моделируемых тестах по 38 заданий (18 типа А и по 10 В и С с максимальным баллом 3). Трудности категорий полигамических заданий отстоят друг от друга на 0,5 логита. Количество испытуемых 1000.

Таблица 2. Параметры моделируемого распределения

Краткое обозначение сочетания типов распределения Распределение испытуемых по уровню подготовленности Распределение заданий по уровню трудности

Тип Среднее Ст.отал. Тип Среднее Ст.откл.

НН-10 норм. -1,0 1,0 норм. 0 0,5

НН-05 норм. -0,5 1,0 норм. 0 0,5

ННООО норм. 0,0 1,0 норм. 0 0,5

НН+05 норм. 0,5 1,0 норм. 0 0,5

НН+10 норм. 1,0 1,0 норм. 0 0,5

НР-10 норм. -1,0 1,0 равиомерн. 0 0,5

НРООО норм. 0,0 1,0 равномерн. 0 0,5

Матрицы ответов во всех случаях моделировались как без искажений, так и с добавлением 5%, 10%, 15%, 20%, 25% и 30% искажённых профилей. Параметры искажения полностью контролируемые, то есть для каждого

и

искажённого профиля известно, каков «истинный» уровень подготовленности виртуального испытуемого, каков уровень подготовленности источника списывания / подлога, и какие именно ответы подверглись искажению.

Было экспериментально проверено, что статистически достаточно моделировать для вычислительных экспериментов по 10 матриц каждого типа.

В параграфе 2.2 «Исследование базовой статистики» на модельных данных всех указанных типов исследовано распределение статистики (2). Проанализированы моменты распределения (среднее значение, дисперсия, асимметрия и эксцесс), построены сглаженные гистограммы, характеризующие функцию плотности распределения. Типичная гистограмма показана на рисунке 1 (предмет-прототип география, без искажений).

1,000-о^оо-0.800'

У

Рис. 1. Гистограмма распределения нормированных уклонений

Мелкими точками на рисунке 1 показано рассеяние значений статистики (группировка с шагом 0,01). Крупными точками и толстой линией, показан характер эмпирического распределения — данные сгруппированы в

К=1,72-Ыт (10)

групп (где N — объём выборки), что считается оптимальным. Тонкой линией показан график функции плотности теоретического распределения N(0; 1).

Выявлены существенные отличия эмпирического распределения нормированных уклонений (2) от распределения N(0; 1): толстые хвосты распределения и дефект вершины кривой. В показанном на рисунке 1 примере распределение оказывается бимодальным. В других случаях (например, для предмета-прототипа математика) этот дефект выражается иначе, но имеет те же причины, выявленные в ходе последующего исследования.

Гипотеза о соответствии эмпирического распределения нормированных уклонений распределению N(0; 1) проверялась с помощью -/^критерия. Было обнаружено, что при мелкой группировке (включая, как правило, и оптимальную группировку (10)) гипотеза о нормальности распределения отвергается. Однако при более грубом сглаживании она принимается. Например, для показанного на рисунке 1 случая гипотеза о нормальности распределения отвергается при количестве групп 20 и более, но принимается при количестве групп 15 и менее.

Было установлено, что смещение испытуемых по шкале логитов влево относительно трудностей заданий приводит к положительной, а смещение вправо — к отрицательной асимметрии распределения нормированных уклонений, причём искажение усиливается при увеличении смещения.

Дополнительный вычислительный эксперимент на специально сконструированных модельных данных показал, что на искажение эмпирического распределения влияет охватываемый совокупностью испытуемых (заданий) диапазон значений на шкале логитов. На рисунке 2 показаны гистограммы для диапазонов шириной 1,2 и 3 логита.

(кривая 1), ±2 логита (кривая 2) и ±3 логита (кривая 3)

При ширине диапазона менее 3 логитов наблюдается такой же дефект вершины распределения («щель», бимодальность), как и для большинства рассмотренных примеров (в том числе для предмета-прототипа география, рисунок 1). При ширине диапазона в 4-5 логитов воспроизводится указанный выше вариант дефекта вершины распределения для предмета-прототипа математика, у которого ширина диапазона как раз такова.

Итак, эмпирическими исследованиями, подкреплёнными теоретическим анализом, было установлено имманентное для статистики (2) свойство: её распределение не является нормальным. И, следовательно, речь может идти только о его аппроксимации. Был реализован метод аппроксимации кривыми Джонсона. Для показанного на рисунке 1 примера соответствующее преобразование имеет вид: для правой моды

и = -0,7377 + 1,07 агсзЬ( (л>0,35)/0,3 ), (11)

для левой моды

и = 4,1053 + 1,53 агсзЬ( (х-0,02)/0,1). (12)

Коэффициенты получены итерационным методом. Среднее, дисперсия, асимметрия и эксцесс стали близки к моментам распределения N(0; 1). Однако остался такой важный дефект распределения, как толстые хвосты. Результат аппроксимации по Джонсону для рассматриваемого примера показан на рисунке 3 (для других типов матриц результат аналогичный).

Рис. 3. Гистограмма распределения преобразованных по формулам (11) и (12) нормированных уклонений (толстая линия) в сравнении с функцией плотности распределения N(0; 1) (тонкая линия)

По %2-критерию результат прежний: гипотеза о нормальности распределения отвергается при мелкой группировке и принимается при грубом сглаживании. Таким образом, даже аппроксимация по Джонсону ослабляет, но не может нивелировать отличия распределения статистики (2) от N(0; 1).

В параграфе 2.3 «Исследование других статистик» выполнено аналогичное исследование характера эмпирического распределения для общей статистики согласия (5), статистик (7-9) и их стандартизованных аналогов. Результат этой

части исследования аналогичен изложенному выше: эмпирическое распределение статистик соответствует теоретическому только приближённо, при грубом подходе, а при более детальном рассмотрении не соответствует.

В частности, это означает, что необоснован выбор критических значений для этих статистик на основании квантилей соответствующих теоретических распределений. Это особенно важно при массовом тестировании. И требуется выработать иной, обеспечивающий более высокую эффективность, метод выбора критических значений.

В связи с этим следующая часть диссертационной работы была посвящена исследованию зависимости эффективности статистик согласия от выбора критического значения. По данным о содержащих искажения профилях в матрице ответов оценивались вероятности (частоты) возникновения ошибки первого (искажение пропущено, не обнаружено) и второго (заподозрено искажение в неискажённом профиле) рода. Чем меньше вероятность (частота) совершения ошибок, тем выше эффективность критерия.

На рисунке 4 показана зависимость этих вероятностей (частот) типичного примера (география) с добавлением 5% искажений, общая статистика согласия

иЛ 5)-

частоты совершения ошибки первого рода (толстая линия) и частоты совершения ошибки второго рода (тонкая линия)

Невозможно свести к нулю вероятности обеих ошибок одновременно. Поэтому будем оптимизировать не вероятности ошибок, а риск, то есть суммарные потери от совершения ошибок обоего рода. Суммарные потери зависят от соотношения «штрафов» за совершение ошибок каждого рода. На

рисунке 5 для того же примера показан график функции потерь (зависимости суммарных потерь от критического значения) при соотношениях «штрафов» 1:1 (ошибки равнозначны), 1:10 (ошибка второго рода в 10 раз дороже) и 10:1 (в 10 раз дороже ошибка первого рода). По оси абсцисс — критическое значение, по оси ординат, в условном масштабе, — суммарные потери.

1,000-

Un

Рис. 5. Функция потерь при их соотношении 1:1 (толстая линия), 10:1 (тонкая линия) и 1:10 (пунктир)

Разным соотношениям потерь соответствуют разные оптимальные критические значения. Определение этого соотношения является прерогативой лиц, принимающих решения в системах управления образованием или иными социальными и экономическими сферами. Например, пусть допустимо не обнаружить 5% случаев искажения в результатах тестирования и в 0,3% случаев незаслуженно заподозрить наличие такого искажения. Тогда при количестве испытуемых, выполнявших данный вариант теста, близком к 1000, и наличии порядка 5% искажённых профилей, соотношение потерь близко к 1:1, и функция потерь имеет вид, показанный на рисунке 5 толстой линией. В данном примере оптимальное критическое значение для общей статистики согласия составляет 1,6.

В главе 3 «Технология оценки достоверности результатов тестирования» на основе описанных в предыдущих главах исследований формируется технология (совокупность методов и алгоритмов) обработки данных массового тестирования (мониторинга) с целью выявления недостоверных результатов. Эта технология предусматривает оптимизацию критических значений статистик согласия на специально конструируемых модельных данных, построение более эффективного композиционного критерия и на его основе

принятие решения о достоверности или недостоверности измерения по каждому испытуемому индивидуально. В главе также описаны разработанное для реализации этой технологии программное обеспечение и результаты её экспериментальной проверки.

В параграфе 3.1 «Оптимизация выбора критических значений» разработан метод, позволяющий выбирать для статистик согласия критические значения, оптимальные именно для задачи выявления искажений в измерении испытуемых, и не зависящее от того, насколько эмпирическое распределение данной статистики отличается от теоретического распределения. Этот метод состоит в оптимизации функции суммарных потерь на модельных данных, аналогичных реальным, но содержащих известное количество искажений. В силу малой зависимости этого оптимального критического значения от небольших различий в распределении параметров модели Раша, оно будет эффективно применимо и для реальных данных, послуживших прототипом при моделировании. Этот вывод подтверждён сериями вычислительных экспериментов по всем описанным выше типам матриц со всеми количествами искажений для всех рассматриваемых в настоящей работе статистик согласия.

В параграфе 3.2 «Композиционный критерий» получает развитие полученный в ходе исследования эффективности известных статистик согласия вывод, что ни одна из них не является достаточно эффективной. Необходимо повысить эффективность выявления искажённых профилей испытуемых, то есть снизить суммарные потери от совершения ошибок. В силу принципа синергизма было высказано, и затем доказано, предположение, что композиционный критерий, построенный на основе статистик согласия, будет более эффективен, чем каждая из них отдельно. Перед сведением воедино статистические критерии проверки гипотезы о достоверности измерения испытуемых приводятся к единому виду посредством индикаторной функции

где 3] — базисная статистика, — её критическое значение, I — количество статистик в линейной комбинации, а коэффициенты а, выбираются так, чтобы величина К оказалась нормирована к единице. В этом случае семантика значения К очевидна — это степень уверенности в том, что результаты тестирования данного испытуемого содержат искажения.

В параграфе 3.3 «Технология обработки данных тестирования», сочетая идею композиционного статистического критерия с ранее описанным методом оптимизации критических значений статистик, формулируется алгоритм выявления случаев недостоверного измерения, испытуемых при массовом тестировании. Этот алгоритм состоит в следующем.

где 5 — статистика, р — критическое значение.

Статистика К для композиционного критерия определяется как

I

(13)

1.На основе реальных результатов тестирования описанным выше методом генерируются модельные аналоги с заданным количеством искажений.

2. По полученным модельным матрицам ответов оцениваются значения параметров модели Раша так же, как и для реальных данных.

3. Для реальных результатов тестирования и для всех модельных матриц, с учётом результатов оценивания параметров модели Раша, вычисляются значения всех статистик согласия для каждого испытуемого. Попутно при исследовании распределения нормированных уклонений реальных данных можно получить предварительный прогноз возможного в них количества искажений (в силу зависимости характера распределения этой статистики от количества искажённых профилей).

4. На модельных данных выполняется оптимизация критических значений всех статистик.

5. С использованием полученной оптимальной схемы вычисляются значения композиционной статистики (13).

6. Аналогично п. 4 выполняется оптимизация критического значения композиционной статистики.

7. По композиционному критерию, с учётом полученных на модельных данных сведений о точности измерения, для каждого реального испытуемого принимается решение: признать результаты его тестирования достоверными или недостоверными.

Схема алгоритма приведена на рисунке 6. Для его реализации и для выполнения эмпирических исследований в форме вычислительных экспериментов разработано и документировано в соответствии с требованиями ГОСТ ЕСПД специализированное программное обеспечение, описанное в параграфе 3.4 «Программное обеспечение».

Программное обеспечение представляет собой комплекс программ. В него входят компоненты, обеспечивающие генерацию модельных матриц всех требуемых для исследования и для реализации разработанного здесь алгоритма типов. Другие компоненты программного обеспечения осуществляют вычисление значений всех статистик согласия для каждого испытуемого, формирование композиционного критерия, а также определение частот ошибок первого и второго рода на модельных данных и построение функции суммарных потерь для оптимизации критических значений.

В параграфе 3.5 «Экспериментальная проверка» описывается экспериментальная проверка применимости разработанной автором технологии обработки результатов массового тестирования с целью оценки их достоверности. Она выполнялась на данных ЕГЭ прошлых лет и включала в себя анализ как на индивидуальном, так и на групповом (аудитория, пункт проведения экзамена, регион) уровне. По результатам проверки выносимые на защиту методы и алгоритмы показали высокую эффективность.

Генерация модельпых аналогов

> N

> 1

Подведение итогов анализа

> (

Рис. 6. Алгоритм принятия решений о достоверности измерения подготовленности испытуемых при массовом тестировании

К преимуществам разработанных методов и алгоритмов можно отнести следующее. Во-первых, суммарные потери при оптимальном выборе критического значения композиционной статистики близки к нулю. Во-вторых, метод обладает устойчивостью к вариациям условий формирования его входных данных. То есть, применительно к ЕГЭ, достоверность выявления искажённых профилей испытуемых не снижается из-за недостаточно хорошо

составленных контрольных измерительных материалов, из-за неоднородностей в совокупности испытуемых (по регионам, по вариантам теста и т.п.) и прочих подобных причин.

В заключении даётся общая характеристика диссертационной работы, мотивируется вывод о достижении заявленных целей исследования и намечаются возможные направления его дальнейшего развития.

Основные результаты работы

В ходе диссертационного исследования была мотивированно выбрана математическая модель тестирования и усовершенствована в части оценки достоверности результатов массового тестирования.

Было проведено теоретическое и эмпирическое исследование эффективности традиционных методов для оценки достоверности результатов массового тестирования, основанных на использовании статистик согласия. Были выявлены недостатки этих методов, связанные с существенным для данной задачи отличием распределения статистик согласия от теоретического распределения, которому они приближённо соответствуют. Это порождает проблему выбора критического значения, без решения которой указанные методы не позволяют с достаточной эффективностью выявлять в данных массового тестирования недостоверные результаты. По результатам исследования были разработаны методы устранения выявленных недостатков и решения указанной проблемы.

На основе этого получены следующие результаты:

1) разработан и обоснован метод выбора критических значений для статистик согласия путём оптимизации функции суммарных потерь на специально сконструированных модельных данных;

2) разработаны методы конструирования этих модельных данных на основе математической модели Раша;

3) разработан алгоритм формирования более эффективного, чем статистики согласия, композиционного статистического критерия;

4) на этой основе разработана технология обработки данных массового тестирования для выявления недостоверных результатов;

5) разработан комплекс программ для реализации указанных математических моделей, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

С использованием этого комплекса программ выполнена экспериментальная проверка разработанной технологии обработки данных массового тестирования на примере результатов ЕГЭ прошлых лет.

Таким образом, все задачи диссертационного исследования успешно решены и его цель достигнута.

Публикации по теме диссертации

1. Карданова Е. Ю., Карпинский В. Б. Технология обработки информации в многокритериальном мониторинге на основе полигамической модели Г. Раша II Системы управления и информационные технологии, 2007. —№3.1 (29).

— С. 149-154. в перечне ВАК

5. Карданова Е. Ю., Карпинский В. Б. Специальные методы анализа результатов тестирования, основанные на свойстве объективности моделей Раша П Информационные технологии, 2008. — № 4 (140). — С. 72-80. в перечне ВАК

2. Карданова Е. Ю., Карпинский В. Б. Анализ данных многокритериального мониторинга в региональной системе управления качеством образования // Обозрение прикладной и промышленной математики, 2007. — Т. 14. — Выпуск 4. — С. 715-716. в перечне ВАК

3. Карданова Е. Ю., Карпинский В. Б. Обнаружение искажений при тестировании с использованием математической модели Г. Раша // Обозрение прикладной и промышленной математики, 2007. —Т. 14. —Выпуск 4.

— С. 716-717. в перечне ВАК

4. Аверкин В. Н., АверкинС. В., Карданова Е. Ю., Карпинский В. Б. Повышение объективности мониторинга в региональной системе управления образованием II Народное образование, 2008. — № 2. — С. 156-165. в перечне вак

6. Карпинский В. Б. Исследование эффективности общих статистик согласия для обнаружения искажений при массовом тестировании // Вопросы тестирования в образовании, 2006. — №1(17). — С. 7-14.

7. Карданова Е. Ю., Карпинский В. Б. Анализ результатов тестирования с целью обнаружения искажений в измерении испытуемых // В сборнике тезисов докладов У1П Всероссийской научно-методической конференции «Развитие тестовых технологий в России». — М., 2006. — С. 23-25.

8. Карпинский В. Б. Использование композиционного статистического критерия для обнаружения искажений при массовом тестировании / Карпинский В. Б. // Вестник Новгородского государственного университета имени Ярослава Мудрого, 2007. — № 44. — С. 30-33.

9. Карданова Е. Ю., Карпинский В. Б. Методы обнаружения искажений в измерениях испытуемых // Математика в ВУЗе: материалы XX Международной научно-методической конференции, Мурманск, сентябрь 2007 г. —СПб., Петербургский государственный университет путей сообщения, 2007. — С. 121-122.

10. Карданова Е. Ю., Карпинский В. Б. О возможностях обнаружения искажений при массовых тестированиях // Моделирование и параметризация педагогических тестов. Материалы Международной конференции (15 ноября 2007, Минск, Беларусь). — Минск, Республиканский институт контроля знаний, 2008. — С. 30-36.

Изд. лиц. ЛР № 020815 от 21.09.98. Подписано в печать 27.05.2009. Бумага офсетная. Формат 60x84 1/16. Гарнитура Times New Roman. Печать офсетная. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № 56

Издательско-полиграфический центр Новгородского государственного университета им. Ярослава Мудрого. 173003, Великий Новгород, ул. Б. Санкт-Петербургская, 41.

Отпечатано в ИПЦ НовГУ. 173003, Великий Новгород, ул. Б. Санкт-Петербургская, 41.

Оглавление автор диссертации — кандидата технических наук Карпинский, Виктор Болеславович

Введение

Глава 1. Математическое моделирование тестирования

1.1. Математические модели Раша

1.2. Статистические критерии достоверности измерения

1.2.1. Базовая статистика — нормированные уклонения

1.2.2. Статистики согласия для испытуемых

Глава 2. Исследование статистик согласия

2.1. Общая методология исследования

2.1.1. Генерация модельных матриц и искажений

2.1.2. Моделирование по реальным прототипам

2.1.3. Конструирование распределения параметров модели

2.2. Исследование базовой статистики

2.2.1. Распределение нормированных уклонений

2.2.2. Причины особенностей распределения

2.2.3. Аппроксимация эмпирического распределения

2.3. Исследование других статистик

2.3.1. Эмпирические распределения статистик согласия

2.3.2. Эффективность статистических критериев

Глава 3. Технология оценки достоверности результатов тестирования

3.1. Оптимизация выбора критических значений

3.2. Композиционный критерий

3.3. Технология обработки данных тестирования

3.4. Программное обеспечение

3.5. Экспериментальная проверка

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Карпинский, Виктор Болеславович

Актуальность темы исследования. Решение прикладных проблем и исследование естественнонаучных, социальных, экономических и технических объектов зачастую сводится к задаче измерения их латентных (скрытых от наблюдения) характеристик. Это измерение возможно только по данным тестирования (мониторинга). Полученная оценка латентной характеристики должна быть объективна, надёжна и достоверна. Поэтому актуальной является задача разработки специальных математических методов, позволяющих оценивать достоверность измерения латентных характеристик объектов.

Важным частным случаем является педагогическое тестирование. Для управления в сфере образования необходима объективная оценка качества подготовки лиц, освоивших образовательные программы. Это качество (уровень подготовленности) является латентной характеристикой и оценивается по данным тестирования с использованием заданий стандартизированной формы — контрольных измерительных материалов.

Родоначальником раздела науки, изучающего методы обработки результатов тестирования в рамках определённого типа математических моделей, явился датский учёный Георг Раш (George Rasch, 1901-1980). В работе [44], изданной в 1960 году, Г. Раш исходит из предположения, что чем выше уровень подготовленности испытуемого и чем ниже уровень трудности задания, тем выше вероятность того, что задание будет выполнено испытуемым верно. Это, в соответствии с предложенным Т. Бейесом подходом к оценке неизвестного параметра по результатам наблюдений, позволяет использовать для решения задачи мощный аппарат математической статистики. Очевидно, что процесс выполнения испытуемым теста случайным, в общем случае, не является. Однако применима информационная интерпретация понятий «случайность» и «вероятность» в математике: тестирование как процесс измерения связано с уменьшением неопределённости наших сведений об объекте, мерой неопределённости события служит его вероятность.

Это направление получило значительное развитие в работах таких зарубежных специалистов как B.D.Wright [54-56], R. М. Smith [47-51], Н. Huynh [39, 40], G. Karabatsos [41, 42] и других, а также отечественных учёных Ю. М. Неймана [30-32, 21-23], Е. Ю. Кардановой [9-24].

В силу присущих им преимуществ (объективности, возможности контроля точности измерения, метрического характера шкалы) наиболее обоснован выбор для решения данной задачи семейства математических моделей тестирования Г. Раша, играющих большую роль в теории моделирования и параметризации тестов (ТМГГГ, в англоязычной литературе IRT) современной теории тестирования. В данном диссертационном исследовании используется полигамическая модель Раша.

В рамках этой модели западными специалистами предложен ряд статистических критериев для проверки гипотезы о достоверности или недостоверности результатов тестирования [35, 37, 43, 45-46]. Однако эффективность этих методов была неоднократно подвергнута критике (например, в [41]). На начальных этапах настоящего исследования [26, 15] было показано, что их эффективность недостаточна в случае массового тестирования, и требуется разработка более эффективных методов. Таким образом, задача исследовать имеющиеся методы оценки достоверности результатов тестирования, выбрать или сконструировать статистический критерий, достаточно эффективный для массового тестирования, разработать и реализовать технологию оценки достоверности результатов массового тестирования является актуальной.

Целью исследования является разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов оценивания достоверности результатов массового тестирования на основе математической модели Раша.

Для достижения поставленной цели необходимо решить следующие задачи:

-— исследование и обоснованный выбор математических моделей, позволяющих оценивать достоверность результатов тестирования; разработка математических методов и алгоритмов проверки соответствия экспериментальных данных математической модели для выявления в них случаев искажения, приводящего к недостоверности результатов измерения латентной характеристики; развитие приближённых статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения; разработка, обоснование и тестирование эффективных методов и алгоритмов обработки результатов массового тестирования с применением ЭВМ; их реализация в виде комплекса проблемно-ориентированных программ, пригодных как для прикладного использования, так и для проведения вычислительных экспериментов; экспериментальная проверка разработанных методов и алгоритмов с использованием реальных данных ЕГЭ.

Объектом исследования являются массовое тестирование (мониторинг) и его математические модели в сфере образования, а также иных социальных, экономических, технических и естественнонаучных сферах деятельности.

Предметом исследования является достоверность результатов массового тестирования (мониторинга) в части оценивания латентных характеристик объектов для принятия решений в указанных сферах.

Методы исследования включают в себя:

1) методы теории моделирования и параметризации тестов, основанные на математической модели Г. Раша;

2) методы математической статистики, в частности, методы проверки статистических гипотез и методы аппроксимации и сглаживания эмпирических распределений;

3) методы математической теории принятия решений, в частности, методы оптимизации и оценивания рисков;

4) методы алгоритмизации и программной реализации математических моделей;

5) вычислительный эксперимент на реальных и модельных данных.

Научная новизна разработанных автором методов и алгоритмов оценки достоверности результатов массового тестирования обусловлена следующими новыми решениями: исследована эффективность ранее известных методов выявления недостоверных результатов измерения испытуемых для целей массового тестирования или мониторинга; разработан композиционный статистический критерий для проверки гипотезы о достоверности результатов массового тестирования; разработан метод оптимизации критических значений используемых статистик; разработана технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения; разработан комплекс программ для реализации указанных математических моделей, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретной технологии обработки данных массового тестирования (мониторинга), включая ЕГЭ, применимой для выявления случаев недостоверности его результатов.

Достоверность научных результатов обеспечивается постоянным, на каждом этапе исследования, контролем прецизионности [8] используемых методов и процедур в соответствии с требованиями государственной системы обеспечения единства измерений [5, 7], а также всесторонней эмпирической проверкой результатов сериями вычислительных экспериментов с использованием реальных данных ЕГЭ за прошлые годы. Все используемые методы на основе метрологических показателей (ошибка измерения, прецизионность, воспроизводимость, статистическая достаточность) признаны дающими достоверный результат на соответствующем задаче уровне значимости. На защиту выносятся:

1) алгоритм формирования композиционного статистического критерия для проверки гипотезы о достоверности результатов массового тестирования;

2) метод оптимизации критических значений используемых статистик на специально конструируемых модельных данных;

3) технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения;

4) комплекс программ для реализации указанных моделей, методов и алгоритмов, в том числе для проведения вычислительных экспериментов.

Апробация результатов исследования и публикации. Основные результаты исследования были доложены на VIII Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, РФ, 2007), Международной конференции «Моделирование и параметризация педагогических тестов» (Минск, Беларусь, 2007), Международной научно-методической конференции «Математика в ВУЗе» (Санкт-Петербург, 2007), VIII Всероссийской научно-методической конференции «Развитие тестовых технологий в России» (Москва, 2006). Автор участвовал в следующих научно-исследовательских проектах, связанных с темой исследования: «Выработка критериев аннулирования результатов отдельных испытуемых при проведении ЕГЭ и ЦТ» (Федеральный центр тестирования МО РФ, 2006); «Разработка структуры статистического анализа результатов ЕГЭ с целью обнаружения недостоверных результатов ЕГЭ» (Федеральный центр тестирования МО РФ, 2008). По теме диссертации опубликовано 10 статей.

Структура и объём диссертации. Диссертация состоит из введения, трёх глав и заключения, изложенных на 94 страницах, а также списка литературы и приложений. Формулы, рисунки и таблицы нумеруются по иерархическому принципу, то есть формула (1.2.3) есть третья формула второго параграфа первой главы. Объекты каждого типа нумеруются независимо друг от друга, то есть рисунок (1.2.3) не обязательно связан с таблицей 1.2.3. В работе имеются 31 рисунок и 22 таблицы. Список литературы содержит 56 наименований.

Заключение диссертация на тему "Математическое и программное обеспечение оценки достоверности результатов массового тестирования"

Заключение

Целью данного диссертационного исследования являлась разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов оценивания достоверности результатов массового тестирования на основе математической модели Раша.

В качестве математической модели тестирования мотивированно выбрана политомическая модель Г. Раша. В ходе исследования она была усовершенствована в части оценки достоверности результатов массового тестирования. Проведено теоретическое и эмпирическое исследование эффективности традиционных методов для оценки достоверности результатов массового тестирования, основанных на использовании статистик согласия. Выявлены недостатки этих методов, связанные с существенным для данной задачи отличием распределения статистик согласия от теоретического распределения, которому они приближённо соответствуют. Это порождает проблему выбора критического значения, без решения которой указанные методы не позволяют с достаточной эффективностью выявлять в данных массового тестирования недостоверные результаты. По результатам исследования разработаны методы устранения выявленных недостатков и решения указанной проблемы: метод выбора критического значения путём оптимизации суммарных потерь на специально конструируемых модельных данных и алгоритм формирования композиционного статистического критерия.

На основе этого получены следующие результаты:

1) разработан и обоснован метод выбора критических значений для статистик согласия путём оптимизации функции суммарных потерь на специально сконструированных модельных данных;

2) разработаны методы конструирования этих модельных данных на основе математической модели Раша;

3) разработан алгоритм формирования более эффективного, чем статистики согласия, композиционного статистического критерия;

93

4) на этой основе разработана технология обработки данных массового тестирования для выявления недостоверных результатов;

5) разработан комплекс программ для реализации указанных математических моделей; методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

С использованием этого комплекса программ выполнена? экспериментальная проверка разработанной технологии обработки данных массового тестирования на примере результатов ЕГЭ прошлых лет. Было показано, что разработанная технология пригодна для прикладного использования в заявленных целях. Намечены пути- дальнейшего её совершенствования и расширения области применения: исследование более широкого круга статистических критериев; включая непараметрические; дальнейшие исследования и совершенствование композиционной! статистики; применение разработанной технологии оценивания достоверности измерения латентной характеристики к иным, не связанным с педагогическим тестированием, прикладным задачам.

Предложенные в данной диссертационной» работе: специальные математические методы и алгоритмы выявления недостоверных результатов в данных массового тестирования реализованы в виде комплекса программ, показали свою эффективность и практическую применимость. Таким образом, разработано математическое и программное обеспечение оценки достоверности результатов массового тестирования^

Перечень сокращений и условных обозначений

ЕГЭ — единый государственный экзамен.

ЕСПД — Единая система программной документации. логит — единица метрической шкалы, используемой в измерениях латентных величин, подробнее п. 1.1 и [30]. МО РФ — Министерство образования и науки Российской Федерации. ППЭ — пункт проведения экзамена, профиль испытуемого (задания) — подробнее в п. 1.1. с.к.о. — среднеквадратическое отклонение. ТМГТГ — теория моделирования и параметризации тестов. ЦТ — централизованное тестирование. ЭВМ — электронно-вычислительная машина, компьютер. arcsh — гиперболический арксинус. csv — текстовый формат с разделителями полей «;» или табуляцией, совместимый с Microsoft Excel, dat — специализированный для программного обеспечения, не предполагающий совместимости, формат файла для хранения данных. F(a;b) — распределение Фишера-Снедекора с числом степеней свободы числителя а и числом степеней свободы знаменателя Ь. IRT — Item Response Theory, англоязычный аналог названия ТМГТГ. N(0; 1) — стандартизованное нормальное распределение, random — генератор равномерно на отрезке [0; 1] распределённой случайной величины. ROC-кривые — подробнее в п. 2.3.2.

Примечание'. Остальные аббревиатуры в тексте представляют собой идентификаторы, то есть условные, не требующие осмысленной расшифровки, обозначения, объяснённые в контексте. Например: AIR, IST, НН000 и т.д.

Библиография Карпинский, Виктор Болеславович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аверкин В. Н. Повышение объективности мониторинга в региональной системе управления образованием / В. Н. Аверкин, С. В. Аверкин, Е. Ю. Карданова, В. Б. Карпинский // Народное образование. 2008. — №2.

2. Вадзинский Р. Н. Справочник по вероятностным распределениям / Р. Н. Вадзинский СПб.: Наука, 2001. - 295 с.

3. Вероятностные разделы математики / под редакцией Максимова Ю. Д. СПб., Иван Федоров, 2001, 588 с.

4. Гмурман В. В. Теория вероятностей и математическая статистика / Гмурман В. В. М.: Высшая школа, 2002. — 479 с.

5. ГОСТ Р 8.000-2000. Государственная система обеспечения единства измерений. Основные положения. М.: Издательство стандартов, 2000.

6. ГОСТ 19.701-90 (ИСО 5807-85). Единая система программной документации. Схемы алгоритмов, программ, данных и систем. Введён с 01.01.92. - М.: Издательство стандартов, 2005.

7. ГОСТ Р 8.596-2002. Государственная система обеспечения единства измерений. Метрологическое обеспечение измерительных систем. Основные положения. М.: ИПК Издательство стандартов, 2002.

8. ГОСТ Р ИСО 5725. Точность (правильность и прецизионность) методов и результатов измерений. Части 1-6 М.: ИПК Издательство стандартов, 2002.

9. Карданова Е. Ю. Доказательство применимости политомической модели Г. Раша / Е. Ю. Карданова // Вестник Новгородского государственного университета. -2006. — № 39. С. 13-15.

10. Карданова Е. Ю. Моделирование и параметризации тестов: основы теории и приложения. / Е. Ю. Карданова —М.: Федеральный центр тестирования, 2008. — 292 с.

11. Карданова Б. Ю. О применимости политомической модели Г.Раша к тестовым заданиям различных форм, оцениваемым политомически / Е. Ю. Карданова // Вопросы тестирования в образовании, 2005, №16, с. 44-56.

12. Карданова Е. Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования / Е. Ю. Карданова // Вопросы тестирования в образовании, 2004. — № 10. — С. 28.

13. Карданова Е. Ю. Применение многопараметрического анализа для исследования деятельности экспертов / Е. Ю. Карданова // Вопросы тестирования в образовании, 2005. — № 14. — С. 6-31.

14. Карданова Е. Ю. Анализ данных многокритериального мониторинга в региональной системе управления качеством образования / Карданова Е. Ю., Карпинский В. Б. // Обозрение прикладной и промышленной математики, 2007. — Т. 14, выпуск 4. — С. 715-716.

15. Карданова Е. Ю. Обнаружение искажений при тестировании с использованием математической модели Г. Раша / Карданова Е. Ю., Карпинский В. Б. // Обозрение прикладной и промышленной математики, 2007. — Т. 14, выпуск 4. — С. 716-717.

16. Карданова Е. Ю. Специальные методы анализа результатов тестирования, основанные на свойстве объективности моделей Раша / Карданова Е. Ю., Карпинский В. Б. // Информационные технологии, 2008.4(140). —С. 72-80.

17. Карданова Е. Ю. Технология обработки информации в многокритериальном мониторинге на основе политомической модели Г. Раша / Карданова Е. Ю., Карпинский В. Б. // Системы управления и информационные технологии, 2007. — № 3.1(29). — С. 149-154.

18. Карданова Е. Ю. Как формально определить понятия «уровень подготовленности» и «уровень трудности задания»? / Карданова Е. Ю., Нейман Ю. М. // Вопросы тестирования в образовании, 2004. — № 12.- С. 7-17.

19. Карданова Е. Ю. Основные модели современной теории тестирования / Карданова Е. Ю., Нейман Ю. М. // Вопросы тестирования в образовании, 2003. — № 7. — 26 с.

20. Карданова Е. Ю. Проблема выравнивания в современной теории тестирования / Карданова Е. Ю., Нейман Ю. М. // Вопросы тестирования в образовании, 2003. — № 8. — С. 21-40.

21. Карпинский В. Б. Использование композиционного статистического критерия для обнаружения искажений при массовом тестировании /

22. Карпинский В. Б. // Вестник Новгородского- государственного университета имени Ярослава Мудрого, 2007. — № 44. — С. 30-33

23. Карпинский В. Б. Исследование эффективности общих статистик согласия для обнаружения искажений при массовом тестировании / Карпинский В. Б. // Вопросы тестирования в образовании, 2006. № 1(17).1. С. 7-14.

24. Кобзарь А. И. Прикладная математическая статистика / Кобзарь А. И.

25. М.: Физматлит, 2006. — 814 с.

26. КорнГ.А. Справочник по математике для научных работников и инженеров / Корн Г.А., Корн Т.М. М.: Наука, 1984. — 831 с.

27. Молочков В. П. От Delphi 7 к Delphi 2006 / Молочков В. П., Карпинский В. Б. — М.: Диалог-МИФИ, 2007. — 304 с.

28. Нейман Ю. М. Введение в теорию моделирования и параметризации педагогических тестов / Нейман Ю. М., Хлебников В. А. М.: Прометей, 2000. —169 с.

29. Нейман Ю. М. Задача тестирования в терминах классической теории оценивания параметров, / Нейман Ю. М., Хлебников В. А. // Вопросы тестирования в образовании, 2003. — № 8.

30. Нейман Ю. М. Педагогическое тестирование как измерение / Нейман Ю. М., Хлебников В. А. М.: Центр тестирования МО РФ, 2002.67 с.

31. Орлов А. И. Теория принятия решений / Орлов А. И. —М.: Экзамен, 2006. — 573 с.

32. Banerji М. Construct Validity of Scores. Measures from a Developmental Assessment in Mathematics using Classical and Many-Facet Rasch Measurement / Banerji M. // Journal of Applied Measurement, 2000. — 1(2). — pp. 177-198.

33. Dimitrov D. M. Adjusted Rasch Person-Fit Statistics / Dimitrov D. M., Smith R. M. // Journal of Applied Measurement, 2006. — 7(2). — pp. 170-183.

34. Dodd B. G. Item Information as a Function of Information of Threshold Values in the Rating Scale Model / Dodd B. G., De Ayala R. J. In M. Wilson ed. // Objective measurement: Theory into Practice. —Norwood: NJ, Ablex, 1994.pp. 301-317.

35. Gustafsson J.-E. Testing and obtaining fit of data to the Rasch model / Gustafsson J.-E. // British Journal of Mathematical and Statistical Psychology, 1980. — 33. — pp. 205-233.

36. Hambleton R. K. Fundamentals of Item Response Theory. Newbury Rark / Hambleton R. K., Swaminathan H., Rogers H. J. — London, New Delhi: Sage Publications, 1991. — 173 p.

37. HuynhH. Decomposition of a Rasch Partial Credit Item into Independent Binary and Indecomposable Trinary Items / HuynhH. // Psychometrika, 1996.vol. 61. — № 1. — pp. 31-39.

38. Huynh H. On Equivalence between a Partial Credit Item and a Set of Independent Rasch Binary Items / Huynh H. // Psychometrika, 1994. — vol. 59/1/ —pp. 111-119.

39. Karabatsos G. A Critique of Rasch Residual Fit Statistics / Karabatsos G. // Journal of Applied Measurement, 2000. — vol. 1. — № 2.

40. Karabatsos G. Comparing the Aberrant Response Detection Performance of Thirty-Six Person-Fit Statistics / Karabatsos G. // Applied Measurement in Education. 2003, Vol.16, №4, p.277-298

41. Ponocny I. Nonparametric Goodness-of-fit Tests for the Rasch Model / Ponocny I. // Psychometrika, 2001. — vol. 66. — № 3. — pp. 437-460.

42. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests / Rasch G. — MESA Press, 5835 Kimbark, Chicago 60637, USA, 1993.

43. Smith E. V. Detecting and Evaluating the Impact of Multidimensionality using Item Fit Statistics and Principal Component Analysis of Residuals / Smith E. V. // Journal of Applied Measurement, 2000. —Vol.1. —№2. -pp. 199-218.

44. Smith E. V. Introduction to Rasch Measurement / Smith E. V., Smith R. M.- Maple Grove, Minnesota: JAM Press, 2004. — 687 p.

45. Smith R. M. Fit Analysis in Latent Trait Measurement Models / Smith R. M. // Journal of Applied Measurement, 2000. —Vol. 1. —№2. — pp. 199-218.

46. Smith R. M. IPARAM: Item & Person Analysis with the Rasch model / Smith R. M. — Mesa Press, Chicago, 1991.

47. Smith R. M. Person and Item Analysis / Smith R. M. — Mesa Press, Chicago, 1992.

48. Smith R. M. Rasch Measurement Models: Interpreting Winsteps / Smith R. M. // Bigsteps and Facets Output. Maple Grove. Minnesota: JAM Press, 1999. — 58 p.

49. Smith R. M. The Distributional Properties of Rasch Standardized Residuals / Smith R. M. // Educational and Psychological Measurement. — 1988. V. 48.- pp. 657-667.

50. Wollenberg A. L. A Simple and Effective Method to Test the Dimensionality Axiom of the Rasch Model / A. L. van den Wollenberg // Applied Psychological Measurement — 1982. — Vol. 6. — № 1. — pp. 83-91.

51. Wollenberg A. L. Two New Test Statistics for the Rasch Model / A. L. van den Wollenberg // Psychometrika — 1982. — Vol. 47. — № 2.- pp. 123-139.

52. Wright B. D. Best Test Design. Rasch Measurement / Wright B. D., Stone M. N. — Chicago: Mesa Press, 1979. — 223 p.

53. Wright B. D. Rasch Model Overview / Wright B. D., Mok M. // Journal of Applied Measurement. 2000. — vol.1. —№1. — pp. 83-106

54. Wright B. D. Rating Scale Analysis. Rasch Measurement / Wright B. D., Masters G. N. — Chicago, Mesa Press, 1982. — 206 p.