автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и программная реализация методов анализа результатов массового тестирования

кандидата технических наук
Карданов, Руслан Суфьянович
город
Великий Новгород
год
2011
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и программная реализация методов анализа результатов массового тестирования»

Автореферат диссертации по теме "Разработка и программная реализация методов анализа результатов массового тестирования"

4854707

Карданов Руслан Суфьянович

РАЗРАБОТКА И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДОВ АНАЛИЗА РЕЗУЛЬТАТОВ МАССОВОГО ТЕСТИРОВАНИЯ

05.13.18 —Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

2 9 СЕН 2011

Великий Новгород, 2011

4854707

Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новгородский государственный университет имени Ярослава Мудрого»

Научный руководитель: доктор технических наук,

профессор Кирьянов Борис Федорович

Официальные оппоненты: доктор технических наук

Хлебников Владимир Алексеевич

доктор физико-математических наук Сукачева Тамара Геннадьевна

Ведущая организация: Московский государственный университет геодезии и картографии

/ *

Защита состоится ' ' октября 2011 года

на заседании диссертационного совета Д 212.168.04 при Новгородском государственном университете имени Ярослава Мудрого по адресу: 173003, Великий Новгород, ул. Большая Санкт-Петербургская, д.41

С диссертацией можно ознакомиться в библиотеке Новгородского государственного университета имени Ярослава Мудрого.

Автореферат разослан сентября 2011 года.

Ученый секретарь диссертационного совета

кандидат физико-математических наук, доцент Токмачев Михаил Степанович

Общая характеристика работы

Актуальность темы исследования. В настоящее время тестирование активно используется для получения информации о результатах той или иной деятельности в самых разных областях - в образовании, управлении, экономике, медицине и т.п., когда имеется ряд вопросов (или показателей), по совокупности ответов на которые (или по совокупности значений которых) требуется сделать вывод о качестве, эффективности или иных параметрах контролируемого процесса. Во всех подобных случаях ставится задача измерения латентных (скрытых от непосредственного наблюдения) параметров. Средством измерения выступает специально разработанная система измерителей (заданий, показателей, критериев и т.д.).

Применительно к педагогическому тестированию средством измерения является педагогический тест; латентными параметрами - уровни подготовленности участников тестирования и параметры, характеризующие трудность заданий теста. Исходной информацией является матрица ответов, которая содержит баллы всех участников тестирования по всем заданиям теста.

Основной целью современной теории тестирования (Item Response Theory (IRT) в англоязычной литературе, Теория моделирования и параметризации тестов (ТМПТ) - в русскоязычной), зародившейся в 60-х годах прошлого века, является разработка математической модели процесса тестирования, параметрами которой, подлежащими определению, служат характеристики участников тестирования и самого теста.

В настоящее время известно довольно много различных математических моделей ТМПТ. Среди них отдельное место занимают модели Г. Раша, обладающие целым рядом существенных преимуществ по сравнению с другими моделями ТМПТ. В основе этих моделей лежат принципы, впервые изложенные в работах Георга Раша, положивших начало отдельному направлению в современной теории тестирования. Именно эти модели являются объектом исследования данной диссертационной работы.

Однако все преимущества моделей Раша имеют место лишь в том случае, если эмпирические данные тестирования адекватны используемой модели измерения. Для исследования адекватности и идентификации заданий, не согласующихся с моделью измерения, в рамках моделей Раша наибольшее развитие в отечественной и зарубежной науке получили два подхода. Однако, как было показано на начальных этапах настоящего исследования, оба подхода обладают серьезными недостатками и не универсальны. Основной проблемой является проблема выбора критических значений используемых статистик, которая в настоящее время не имеет удовлетворительного решения.

Другой важной проблемой при математическом моделировании теста является исследование эффективности его заданий. Различные задания (даже с одинаковым числом шагов и даже одного уровня трудности) могут по-разному оценивать одних и тех же испытуемых, вкладывая по-разному в информацию об оценке их уровня подготовленности. Далее, одно и то же задание может

быть эффективным для измерения одной группы испытуемых и бесполезным для измерения другой группы.

Таким образом, задача разработки надежных методов идентификации заданий, не согласующихся с моделью измерения; разработки и программной реализации технологии идентификации заданий, не находящихся в согласии с моделью измерения, а также выявления факторов, определяющих эффективность заданий, является актуальной.

Целью диссертационного исследования является разработка и программная реализация специальных математических методов и алгоритмов идентификации заданий, не согласующихся с моделью измерения, а также исследование эффективности тестовых заданий.

Для достижения поставленной цели необходимо решить следующие задачи:

— сравнительное исследование моделей современной теории тестирования с целью выбора моделей, позволяющих осуществлять объективные измерения;

— исследование существующих методов исследования адекватности эмпирических данных используемой модели измерения в рамках моделей Раша;

— разработка метода построения интервальных оценок статистик согласия и исследование возможностей использования указанных интервальных оценок для идентификации заданий, не находящихся в согласии с моделью измерения;

— исследование свойств характеристической функции политомического задания и возможностей ее применения для исследования адекватности эмпирических данных модели измерения;

— исследование свойств информационной функции политомического задания и возможностей ее применения для исследования эффективности заданий;

— развитие статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения;

— разработка методики исследований и моделей экспериментов методами имитационного моделирования в рамках моделей Раша;

— реализация разработанных алгоритмов и методов в виде комплекса программ, пригодного как для прикладного использования, так и для проведения вычислительных экспериментов;

— экспериментальная проверка разработанных методов и алгоритмов с использованием имитационного моделирования и реальных данных массового тестирования.

Объектом исследования являются математические модели измерения латентных переменных в сфере образования, а также в иных социальных, экономических и технических сферах.

Предметом исследования является адекватность эмпирических данных массового тестирования используемой модели измерения, а также эффективность тестовых заданий для измерения латентных характеристик участников тестирования.

Методы исследования. Основные результаты диссертационной работы получены с использованием методов теории моделирования и параметризации тестов; методов математической статистики; численных методов; методов алгоритмизации и программной реализации математических моделей; имитационного моделирования и вычислительного эксперимента на реальных и модельных данных.

Научная новизна исследования состоит в следующем:

— разработаны новые численные методы проверки адекватности математической модели Раша;

— на основе указанных методов разработана технология идентификации заданий, не находящихся в согласии с моделью измерения;

— исследованы свойства характеристической и информационной функций политомического задания и зависимость эффективности задания от трудностей его шагов;

—разработан комплекс программ для реализации указанных процедур, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных эксперим ентов.

Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретных технологий обработки данных массового тестирования с целью идентификации заданий, не находящихся в согласии с используемой моделью измерения.

На защиту выносятся:

1) метод построения интервальных оценок статистик согласия;

2) технология идентификации заданий, не находящихся в согласии с моделью измерения;

3) результаты исследования свойств характеристической и информационной функций политомического задания и зависимости эффективности задания от трудностей его шагов;

4) усовершенствованный метод оценивания согласия с моделью через близость теоретической и эмпирической характеристических кривых;

5) комплекс программ для реализации указанных методов и технологий, а также проведения вычислительных экспериментов.

Апробация результатов исследования и публикации. Основные результаты исследования были доложены на XXI Международной научно-методической конференции «Математика в вузе» (Санкт-Петербург, 2009); международной научно-практической конференции «Новые информационные технологии в образовании» (Екатеринбург, 2011); обсуждались на семинарах «А Nonlinear Mixed Model Framework for Item Response Theory» (Бельгия, 2009) и «Use of Explanatory Item Response Theory Models» (Нидерланды, 2011). По теме диссертации опубликовано 6 работ, в том числе две статьи в журналах, рекомендуемых ВАК, и свидетельство о государственной регистрации программы для ЭВМ.

Структура и объём диссертации. Диссертация состоит из введения, четырех глав и заключения, изложенных на 116 страницах, а также списка

б

литературы и приложения. В работе имеется 41 рисунок и 27 таблиц. Список литературы содержит 66 наименований.

Содержание работы

Во введении обоснована актуальность работы, сформулированы цель и задачи диссертационного исследования, охарактеризованы его объект, предмет и методы, отмечены научная новизна, практическая значимость и достоверность результатов, приведены положения, выносимые на защиту, и сведения об апробации результатов исследования и публикациях по теме диссертации.

В главе 1 содержится обзор математических моделей тестирования, а также рассматриваются методы исследования адекватности экспериментальных данных модели измерения и указываются их недостатки.

В параграфе 1.1 вводятся основные понятия современной теории тестирования.

В параграфе 1.2 рассматриваются одно- и двухпараметрические модели для дихотомических заданий, сравниваются характеристические кривые заданий в данных моделях, обсуждаются их особенности и области применения.

Однопараметрическая модель (дихотомическая модель Раша) определяется формулой:

Pni = P^m=iie„A) = x^e"-\, CD

1 + ехр(£?„ — Sf)

где P(Xni =1/ в„, S,) - вероятность того, что испытуемый п, n=\,...,N, с уровнем подготовленности в„ правильно выполнит задание г, /=1,...,/, с уровнем трудности <5,. Двухпараметрическая модель отличается от данной введением дополнительного параметра заданий - дискриминативности.

В параграфе 1.3 рассматриваются политомические модели, в частности, модель Раша с произвольными промежуточными категориями выполнения заданий (Partial Credit Model в англоязычной литературе). В рамках этой модели вероятность Ртк того, что испытуемый п получит к баллов за выполнение i-го задания (т.е. выполнит к шагов в этом задании), к = 0,1,...,т, определяется формулой:

ехр (А0„-|Х)

^тк ~ ~т / ' (2)

/=0 7=0

где 8,j - трудность выполнения j-го шага в задании /'.

В параграфе 1.4 рассматриваются преимущества моделей Раша по сравнению с другими моделями современной теории тестирования и обосновывается выбор именно этих моделей в данном исследовании.

В параграфе 1.5 анализируются два подхода к исследованию адекватности экспериментальных данных используемой модели измерения, получившие наибольшее развитие в рамках моделей Раша.

В первом подходе используются статистики, получившие название общих статистик согласия. Это статистика

/=о

и ее взвешенная версия, менее чувствительная к выбросам,

¿К-А/К,))2 ^ --(4)

Здесь а„, — балл, полученный испытуемым п с уровнем подготовленности 0„ за выполнение задания г с максимальным баллом от; М(ат) и О (а,,,) -соответственно математическое ожидание и дисперсия этого балла с учётом формулы (2).

Основной проблемой при использовании статистик (3) и (4) является проблема выбора их критических значений, обусловленная приближенностью их теоретических распределений, отличием эмпирических распределений от теоретических и зависимостью их значений от объема выборки и особенностей распределений трудностей заданий и уровней подготовленности испытуемых.

В зарубежной литературе эта проблема решается различными способами. В одной группе работ предлагаются различные формулы коррекции наблюдаемых значений статистик или их критических значений, имеющие целью минимизировать их зависимость от свойств выборки. В другой группе работ предлагается вообще отказаться от использования указанных статистик в пользу других (но также не абсолютно надежных) статистик. В большинстве же работ проблема критических значений статистик согласия вообще игнорируется и предлагается использовать общие критические значения независимо от тестовой ситуации.

При наличии политомических заданий дополнительно можно проанализировать согласие с моделью ответов испытуемых по отдельным категориям политомического задания. Простая и взвешенная версии общих статистик согласия по А-ой категории задания / имеют вид:

у( 1) . ап1=к

Все а„;

(5)

Статистики (5) и (6) имеют те же проблемы с выбором критических значений, что и статистики (3) и (4).

В настоящей работе мы предлагаем отказаться от точечных оценок статистик согласия, зависящих от свойств выборки, и перейти к их интервальному оцениванию. Метод построения интервальных оценок общих статистик согласия будет предложен в главе 2.

Во втором подходе используются критерии, оценивающие близость модельной характеристической кривой и ее эмпирического аналога, основанного на реальных ответах участников с различным уровнем подготовки. В качестве меры отклонения эмпирических оценок от теоретических можно выбрать величину

Статистика %2 асимптотически распределена по закону хи-квадрат с числом степеней свободы у= Здесь я - количество подмножеств, на которые была

соответственно количество, среднее значение оценок уровней подготовленности и сумма баллов за выполнение задания /' всех испытуемых, попавших в одно подмножество; 1,{в„)- теоретическое (модельное) математическое ожидание балла за выполнение рассматриваемого задания

Основными проблемами при использовании этой статистики и других, родственных ей и имеющих ту же природу, являются выбор числа подмножеств я разбиения совокупности испытуемых и зависимость используемых статистик от конкретной выборки испытуемых, выполнявших тест. Более того, в ряде исследований показано, что эффективность этих статистик недостаточно высока.

В настоящей работе предлагается метод интервального оценивания ординат точек эмпирического распределения, в основе которого лежит бутстреп-метод построения доверительных интервалов. Метод построения интервальных оценок ординат будет предложен в главе 3.

В главе 2 разрабатывается метод построения интервальных оценок статистик согласия (3)-(6), в основе которого лежит бутстреп-метод построения доверительных интервалов. Также в этой главе исследуются возможности использования интервальных оценок статистик согласия для идентификации заданий, не находящихся в согласии с моделью измерения и предлагается технология идентификации заданий, не согласующихся с моделью измерения.

(7)

разбита вся совокупность испытуемых; /„, вп, /„, = аи >

ы\

51

гипотетическим испытуемым с уровнем подготовленности вп.

В параграфе 2.1. излагается бутстреп-метод построения доверительных интервалов. Известно, что доверительные интервалы, построенные с помощью бутстреп-метода, являются более точными по сравнению со стандартными интервалами, построенными на основе теории нормального распределения. Суть бутстреп-метода состоит в том, что по имеющимся наблюдениям за случайной величиной моделируется процесс ее получения, позволяющий оценить выборочное распределение этой случайной величины. В работе применяется метод процентилей построения доверительных интервалов.

В параграфе 2.2 предложена процедура построения интервальных оценок статистик согласия, имеющая в основе бутстреп-метод построения доверительных интервалов. Указанная процедура представлена на рис.1 и включает в себя следующие этапы.

Рис. 1. Алгоритм построения интервальных оценок статистик согласия

1) Нахождение точечных оценок статистик согласия.

Для оценивания параметров и получения оценок статистик согласия использовалась программа \Vinsteps (http://www.winsteps.com).

2) Конструирование бутстреп-выборок.

Конструирование осуществляется методом Монте-Карло. Повторные реализации матрицы тестирования генерируются с использованием случайных выборок объема N с возвращением из исходной матрицы тестирования.

3) Нахождение бутстреп-оценок общих статистик согласия.

С этой целью к бутстреп-выборке применяется шаг 1.

4) Шаги 2-3 повторяются .6=1000 раз.

5) Аппроксимация распределений статистик согласия.

При использовании метода Монте-Карло конструирования бутстреп-выборок в качестве аппроксимации бутстреп-распределения рассматривается гистограмма бутстреп-оценок рассматриваемых статистик.

6) Оценивание характера распределения статистик согласия.

На данном этапе по каждому заданию вычисляются выборочные числовые характеристики полученных распределений и исследуется смещение распределения относительно оценок статистик, полученных на шаге 1.

7) Построение доверительных интервалов для статистик согласия.

На данном этапе с учетом результатов шага 6 на уровне значимости а = 0,05 строится доверительный интервал для каждой статистики.

Для реализации описанной процедуры разработано специальное программное обеспечение (его описание представлено в главе 4).

Для проведения экспериментов использовалось имитационное моделирование, описанное в параграфе 2.3. Генерирование модельных матриц производилось методом Монте-Карло в соответствии с формулой вероятности (2) или ее дихотомической версии (1). Для исследования возможности идентификации заданий, не согласующихся с моделью, в модельные матрицы вносились искажения.

К матрицам тестирования применялась процедура построения доверительных интервалов статистик согласия. Обозначим (а? ) и

(<Хщ,Рщ) - доверительные интервалы статистик и и IV соответственно для

задания г, 1=1,...,/, при условии, что ответы на это задание содержат р% искажений. Доверительные интервалы при р= 0 (искажений нет) будем называть базовыми. Аналогичным образом вводятся доверительные интервалы статистик согласия по категориям. Задание признается не согласующимся с моделью измерения, если доверительные интервалы его статистик согласия не пересекаются с соответствующими базовыми интервалами.

В параграфе 2.4 приведены результаты одного из экспериментов, имеющих целью показать возможности использования интервальных оценок статистик согласия для идентификации заданий, не находящихся в согласии с моделью измерения, в случае дихотомических заданий.

Сначала была исследована зависимость бутстреп-распределений анализируемых статистик от числа бутстреп-повторений. Основные выводы исследования следующие:

1) при В=1000 (В — число бутстреп-повторений) средние значения бутстреп-оценок общих статистик согласия совпадают с их точечными

оценками, что говорит о том, что не наблюдается смещения бутстреп-распределений относительно точечных оценок статистик;

2) вид бутстреп-распределения при малом числе повторений является неустойчивым и отличается от нормального. Только при большом числе повторений (750 и выше) характеристики распределения (асимметрия и эксцесс) становятся устойчивыми.

3) бутстреп-распределения статистик и и № при В=1000 могут считаться нормальными. Поэтому в дальнейшем при построении доверительных интервалов статистик согласия используется 1000 бутстреп-повторений.

Далее были построены доверительные интервалы статистик I/ и IV при различных значениях параметра р (р - процент искажений). Результаты представлены в табл. 1-2. Данные усреднены по 5 заданиям, в профили которых вносились искажения. В 1-ой строке таблиц представлены базовые интервалы, далее — интервалы при различном числе искажений.

Из анализа таблиц и проведенного далее исследования вытекают следующие выводы.

1) Если задание находится в согласии с моделью (р=0), то значения его статистик согласия близки к 1. Чем больше искажений содержит матрица тестирования, тем сильнее отличаются от 1 значения статистик согласия.

2) Средние квадратические отклонения всех статистик, представленных в таблицах, достаточно малы. При этом взвешенная статистика Ж обладает гораздо меньшей вариабельностью, чем статистика [/.

3) Точечные оценки статистик согласия не могут служить надежными индикаторами согласия.

4) Взвешенная статистика IV обладает большей чувствительностью, чем статистика и: взвешенная статистика IV идентифицирует задание как не согласующееся с моделью измерения, уже при 10% искажений, в то время, как статистика С/—при 15%;

5) Интервал (0,8; 1,2), часто рекомендуемый в качестве допустимого, не может служить надежным индикатором согласия.

Табл.1

Доверительные интервалы статистики и

Параметр р (процент искажений) Значение статистики Левая граница доверит, интервала а^ Правая граница доверит, интервала

Среднее Ср.кв.откл. Среднее Ср.кв.откл. Среднее Ср.кв.откл.

0 0.99 0,067 0.84 0,044 1.15 0,093

5 1,13 0,066 0,98 0,046 1,31 0,098

10 1,28 0,075 1,12 0,06 1,46 0,109

15 1,44 0,032 1,28 0,028 1,63 0,048

20 1,48 0,070 1,32 0,057 1,67 0,097

25 1,59 0,087 1,43 0,069 1,79 0,119

50 2,21 0,065 2,02 0,054 2,42 0,079

100 3,30 0,123 3,11 0,089 3,54 0,178

Табл.2

Доверительные интервалы статистики IV

Параметр р (процент искажений) Значение статистики Левая граница доверит, интервала СИщ Правая граница доверит, интервала [}щ

Среднее Ср.кв.откл. Среднее Ср.кв.откл. Среднее Ср.кв.откл.

0 1,00 0,025 0,92 0,027 1,08 0,032

5 1,10 0,027 1,02 0,027 1,19 0,029

10 1,20 0,038 1,12 0,034 1,30 0,042

15 1,30 0,029 1,22 0,026 1,40 0,029

20 1,35 0,028 1,26 0,028 1,45 0,034

25 1,43 0,027 1,33 0,023 1,52 0,027

50 1,83 0,027 1,71 0,022 1,94 0,028

100 2,44 0,016 2,33 0,019 2,56 0,018

На следующем этапе исследования была проведена серия вычислительных экспериментов с целью изучения зависимости доверительных интервалов статистик согласия от различных факторов — числа испытуемых, типа заданий с искажениями, параметров распределений трудностей заданий и мер испытуемых. Основные выводы проведенного исследования следующие:

1) с увеличением объема выборки чувствительность статистик согласия повышается, но всегда взвешенная статистика IV обладает большей чувствительностью, чем статистика £/;

2) доверительные интервалы статистики и шире соответствующих интервалов статистики Ж для всех типов заданий, независимо от их трудности;

3) доверительные интервалы статистики и для трудных и легких заданий шире соответствующих интервалов для заданий средней трудности. Доверительные интервалы статистики IV практически не зависят от трудности задания;

4) все статистики идентифицируют задание, как не согласующееся с моделью измерения, уже при 10-15% искажений. Зависимости от трудности задания здесь не наблюдается.

5) смещение испытуемых относительно множества заданий не оказывает существенного влияния на доверительные интервалы статистик согласия и на их способность идентифицировать задания, не согласующиеся с моделью.

В параграфе 2.5 приводятся результаты одного из экспериментов, имеющих те же цели, что и в параграфе 2.4, но выполненные для политомических данных. Дополнительно строятся доверительные интервалы статистик согласия по отдельным категориям (5) и (6).

Проведенное исследование позволило сделать вывод, что использование интервальных оценок общих статистик согласия позволяет более точно идентифицировать задания, не адекватные модели измерения, и категории, в которых есть искажения, чем использование только их точечных оценок.

В результате проведенного исследования была разработана технология идентификации заданий, не согласующихся с моделью измерения, в реальных данных тестирования, изложенная в параграфе 2.6.

Рис.2. Алгоритм идентификации заданий, не согласующихся с моделью измерения, в реальных данных тестирования

Данная технология схематично представлена на рисунке 2 и включает в себя следующие этапы:

1) Генерируется матрица тестирования, аналогичная реальной, но с полным соответствием модели измерения. Назовем полученную матрицу модельной.

2) С использованием модельной матрицы строятся доверительные интервалы общих статистик согласия (3) и (4) для всех заданий, а также статистик (5) и (6) для отдельных категорий (в случае полигамических заданий). Это — модельные доверительные интервалы.

3) Строятся доверительные интервалы общих статистик согласия для всех заданий и их категорий по реальной матрице тестирования. Назовем эти интервалы реальными доверительными интервалами.

4) Сравнивая реальные доверительные интервалы с модельными, делаем вывод о согласии или несогласии с моделью ответов на данное задание теста.

Для реализации технологии разработано специализированное программное обеспечение, описанное в главе 4.

В заключение приведен пример, иллюстрирующий применение указанной технологии идентификации «плохих» заданий.

В главе 3 рассматривается другой подход к исследованию адекватности эмпирических данных используемой модели измерения, который использует критерий (7), оценивающий близость модельной характеристической кривой и ее эмпирического аналога, основанного на реальных ответах участников с различным уровнем подготовки. Предлагается метод интервального оценивания ординат точек эмпирического распределения, в основе которого лежит бутстреп-метод построения доверительных интервалов. Дополнительно в главе вводится понятие информационной функции для политомического тестового задания, изучаются ее свойства и применение для исследования эффективности заданий.

В параграфе 3.1 рассматриваются свойства характеристической и информационной функций политомического тестового задания.

Предположим, что трудности шагов задания др / =1,..., т известны и фиксированы (здесь и далее в этой части индекс задания / опускается). Вероятность получения балла а„ является функцией параметра в - уровня подготовленности испытуемого - и согласно модели (2) определяется формулой:

--~-.*=<> ,...,*», (8)

1=0 /=0

Характеристической функцией задания называется функция Д0)=М(а„), которая определяется формулой

т т

(9)

М *=1

и представляет собой математическое ожидание балла за выполнение задания испытуемыми с различным уровнем подготовленности. График характеристической функции называется характеристической кривой задания.

Информационная функция политомического задания определяется как количество информации (по Фишеру) относительно параметра в, содержащееся в одном тестовом задании. Показано, что информационная функция политомического задания может быть представлена в виде:

\2

| (ю)

График информационной функции назовем информационной кривой.

В работе приведены некоторые свойства характеристической и информационной функций заданий. В частности, доказано, что:

1) Характеристическая и информационная функции тестового задания связаны соотношением 1((7)=/'(0);

2) ^/(в)с/в = т.

Второе свойство означает, что общее количество информации, соответствующей заданию, определяется только количеством категорий в этом задании и никак не связано с трудностью задания или отдельных его шагов.

Далее более подробно изучены особенности характеристической и информационной функций в случае двухшагового задания. Основные результаты сформулированы в виде нескольких теорем.

В параграфе 3.2 показано применение информационной функции политомического задания для исследования эффективности тестовых заданий для измерения уровня подготовленности испытуемых. Под эффективностью задания будем понимать количество информации, соответствующей этому заданию, для измерения данной выборки испытуемых. Изучается зависимость информационной функции и количества информации, соответствующей заданию, от упорядоченности и от размаха трудностей его шагов.

Результаты исследования позволили выявить факторы, определяющие эффективность задания. Показано, что основным таким фактором является разность с/ между трудностями первого и последнего шагов в задании: чем больше указанная разность, тем больше информации соответствует этому заданию в окрестности точки 6 = 8 (3- общая трудность задания, среднее арифметическое трудностей его шагов). При равном с1 более эффективным является задание с большим числом инверсий в трудностях его шагов.

В параграфе 3.3 рассматривается применение характеристической кривой задания для исследования адекватности эмпирических данных модели измерения. Предлагается метод интервального оценивания ординат точек эмпирического распределения, что позволит избежать выборочного смещения при построении эмпирической характеристической кривой.

В п.3.3.1 описывается процедура построения доверительных интервалов ординат точек эмпирического распределения, в основе которого лежит бутстреп-метод построения доверительных интервалов. Для реализации описанной процедуры разработана специальная компьютерная программа (гл.4).

В п.3.3.2 приведены результаты экспериментов, имеющих целью исследование возможностей использования интервальных оценок ординат точек эмпирического распределения для идентификации заданий, не находящихся в согласии с моделью измерения. На первом этапе для проведения

исследований использовалось имитационное моделирование. Цели этого этапа -определение оптимального числа подмножеств Л' при использовании критерия хи-квадрат (7) и исследование эффективности используемой статистики. Модельные матрицы конструировались с произвольными, наперед заданными параметрами распределений уровней подготовленности испытуемых и уровней трудности заданий. Для исследования возможности идентификации с помощью критерия (7) заданий, не находящихся в согласии с моделью измерения, в модельные матрицы вносились искажения.

Показано, что мощность критерия практически не зависит от числа промежутков .?: уже при 10% искажений выявляются все плохие задания. Однако при этом велика вероятность ложной идентификации (когда хорошее задание признается плохим), особенно при малых Дополнительно изучалась зависимость силы статистики (7) от различных факторов - числа испытуемых, параметров распределений их мер и т.д. Было обнаружено, что при уменьшении объема выборки мощность критерия остается высокой, а вероятность ложной идентификации существенно уменьшается при всех значениях Однако при массовых тестированиях (при больших объемах выборок) эффективность критерия, как было показано выше, не может быть признана удовлетворительной. Далее, при массовых тестированиях может быть рекомендовано 5>10.

На 2-м этапе экспериментов использовалось как имитационное моделирование, так и данные реального массового тестирования. Цель этого этапа - с помощью интервальных оценок ординат точек эмпирического распределения усовершенствовать технологию оценивания согласия с моделью через близость теоретической и эмпирической характеристических кривых. На рис.3 показаны доверительные интервалы для одного из заданий при разном проценте искажений р.

Основные выводы проведенного исследования следующие:

1) использование доверительных интервалов позволяет идентифицировать задание как не согласующееся с моделью уже при 5-10% искажений: хотя бы один из доверительных интервалов не будет пересекаться с характеристической кривой задания;

2) случаев ложной идентификации выявлено не было: если данные не содержат искажений, все доверительные интервалы пересекаются с характеристической кривой;

3) с увеличением процента искажений число доверительных интервалов, не пересекающихся с характеристической кривой задания, увеличивается. Более того, увеличивается их сдвиг относительно кривой.

Дополнительно важно отметить, что использование доверительных интервалов позволяет идентифицировать участки на оси переменной, где отклонения точек от характеристической кривой статистически значимы, что может дать исследователю дополнительную информацию при анализе реальных данных тестирования.

В заключительной части исследования процедура построения указанных интервальных оценок была применена к реальным данным тестирования.

Рис.3 Доверительные интервалы ординат точек эмпирического распределения при разном проценте искажений в данных

В главе 4 представлен комплекс программ, разработанный для реализации предложенных в диссертации методов и технологий. Комплекс

программ спроектирован с использованием открытой объектно-ориентированной технологии Java 2 Standard Edition (версия 1.6), выбор которой помимо доступности, удобства применения и широкого спектра полезных расширений, обусловлен легкой портируемостью и платформенной независимостью. Так, конечный программный продукт, скомпилированный в промежуточный байт-код и запакованный в специальный Java-архив (.jar), может быть интерпретирован на любой аппаратно/операционной системе, для которой существует имплементация виртуальной машины Java.

Система хранения тестовых данных реализована в виде структурированного каталога, содержащего XML-файлы, для работы с которыми используется библиотека jDOM. Таким образом, результаты исследований автоматически сохраняются и в дальнейшем могут быть повторно использованы, как в данной конкретной программной системе, так и, в силу универсальности технологии XML, в других.

Для построения точечных оценок статистик согласия применяется программа Winsteps (специальная программа обработки данных в рамках моделей Раша), вызов которой осуществляется в batch-режиме с использованием динамически генерируемых .bat-файлов.

Независимость ряда решаемых задач позволила спроектировать комплекс программ в виде совокупности самостоятельных блоков:

• блок моделирования данных тестирования;

• блок работы с реальными данными тестирования;

• блок работы с программой Winsteps;

• блок работы с XML-файлами;

• бутстреп-блок;

• блок работы с графикой;

• блок работы с отчетами;

• блок утилит.

Для разработки комплекса программ использовалась интегрированная среда разработки NetBeans (версия 6.8), которая является официальной и рекомендованной средой разработки компании Sun Microsystems (ныне Oracle). Отладка и тестирование проводились под операционной системой Microsoft Windows 7 (х64). Программный код, а также сопутствующая документация (включая javadoc и коментарии к коду) соответствуют стандартам качества разработки компании Sun Microsystems (ныне Oracle).

В параграфах 4.1-4.3 описываются задачи комплекса программ, общий его вид, формируемая отчетность, обсуждается проблема его качества. В параграфе 4.4 «Комплексные проблемы и перспективы» намечены направления для дальнейшего усовершенствования комплекса программ, что позволит не только оптимизировать работу приложения, но и существенно расширить функционал.

В заключении даётся общая характеристика диссертационной работы, мотивируется вывод о достижении заявленных целей исследования и намечаются возможные направления его дальнейшего развития.

Основные результаты работы

В ходе исследования были проанализированы существующие методы исследования адекватности эмпирических данных используемой модели измерения в рамках моделей Раша. По результатам исследования разработан метод построения интервальных оценок статистик согласия, в основе которого лежит бутстреп-метод построения доверительных интервалов. Это позволило разработать технологию идентификации заданий, не находящихся в согласии с моделью измерения.

В результате исследования свойств характеристической функции задания был предложен метод интервального оценивания ординат точек эмпирического распределения, что позволило усовершенствовать метод оценивания согласия с моделью через близость теоретической и эмпирической характеристических кривых задания.

В результате исследования свойств информационной функции задания и зависимости эффективности задания от трудностей его шагов, были выявлены факторы, определяющие эффективность заданий.

Для реализации разработанных алгоритмов и методов разработан комплекс программ, пригодный как для прикладного использования, так и для проведения вычислительных экспериментов.

На основе этого получены следующие результаты:

1) выполнен анализ существующих методов проверки адекватности математической модели Раша и выявлены недостатки этих методов;

2) разработаны новые численные методы проверки адекватности математической модели Раша, а именно метод построения интервальных оценок статистик согласия и метод интервального оценивания ординат точек эмпирического распределения;

3) на основе указанных методов разработана технология идентификации заданий, не находящихся в согласии с моделью измерения.

4) разработанные методы и алгоритмы протестированы с применением технологии математического моделирования и вычислительного эксперимента;

5) получили развитие качественные методы исследования математических моделей Раша, а именно исследованы свойства характеристической и информационной функций политомического задания и исследована зависимость эффективности задания от трудностей его шагов;

6) разработан комплекс программ для реализации указанных процедур, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

Таким образом, все задачи диссертационного исследования успешно решены и его цель достигнута.

Публикации по теме диссертации

1. Карданова Е.Ю., Карданов P.C. Построение интервальных оценок статистик согласия при анализе результатов массового тестирования в рамках моделей Г. Раша // Информационные технологии. - 2010,- №9.- С.64-70 (в перечне ВАК)

2. Карданов P.C. Построение интервальных оценок статистик согласия политомических тестовых заданий / P.C. Карданов // Вестник НовГУ. - 2010,-№60,- С.36-41(в перечне ВАК)

3. Карданова Е.Ю., Карданов P.C. О некоторых свойствах характеристической и информационной функций политомического тестового задания // Вестник НовГУ. - 2010,- №55.- С.19-24

4. Карданова Е.Ю. , Карданов P.C. Построение доверительных интервалов статистик согласия при анализе результатов массового тестирования // В сб. материалов международной научно-мет. конференции «Математика в вузе», С.Петербург: 2009,- С. 107-109

5. Карданов P.C. К вопросу исследования согласия эмпирических данных тестирования с используемой моделью измерения // В сб.материалов Межд. научно-практической конференции «Новые информационные технологии в образовании» «НИТО-2011» (1-4 марта 2011 г., Екатеринбург). - Екатеринбург: РГППУ, 2011.-С. 125-126

6. Свидетельство о государственной регистрации программ для ЭВМ № 2011614194. Бутстреп-метод анализа результатов массового тестирования (Bootstrap Method of the Analysis of Mass Test Results BootMART) / P.C. Карданов. -M.: Роспатент, 2011

Карданов Руслан Суфьянович

РАЗРАБОТКА И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДОВ АНАЛИЗА РЕЗУЛЬТАТОВ МАССОВОГО ТЕСТИРОВАНИЯ

Подписано к печати 05.09.2011. Формат 60x84/16 Бумага офсетная. Усл. печ. л. 1,1. Тираж 100 экз. Гарнитура Times New Roman. Заказ № 968

Отпечатано в ЗАО «Новгородский технопарк» 173000, Великий Новгород, Б.С.-Петербургская, 41 тел/факс (8162) 73-76-76

Оглавление автор диссертации — кандидата технических наук Карданов, Руслан Суфьянович

Введение

Глава 1. Математические модели современной теории 12 тестирования

1.1. Основные понятия ТМПТ

1.2. Простейшие модели (дихотомические)

1.3. Модели для полигамических заданий

1.4. Преимущества моделей Раша

1.5. Исследование адекватности экспериментальных данных 25 используемой модели измерения

1.5.1. Общие статистики согласия и проблемы их 25 использования

1.5.2. Критерии, оценивающие близость модельной 32 характеристической кривой и ее эмпирического аналога

Глава 2. Исследование согласия с моделью с помощью 35 интервальных оценок статистик согласия

2.1. Бутстреп-метод построения доверительных интервалов

2.2. Процедура построения интервальных оценок статистик 37 согласия

2.3. Модель эксперимента

2.4. Результаты эксперимента: дихотомические задания

2.5. Результаты эксперимента: полигамические задания

2.6. Технология идентификации заданий, не согласующихся с моделью измерения

Глава 3. Характеристическая и информационная функции 60 задания, их свойства и применение

3.1. О некоторых свойствах характеристической и 60 информационной функций полигамического тестового задания

3.1.1. Связь между характеристической и информационной 65 функциями задания

3.1.2. Свойства характеристической и информационной 65 функций

3.1.3. Особенности характеристической и информационной 66 функций в случае двухшагового задания

3.2. Исследование эффективности политомических заданий

3.2.1. Модель эксперимента

3.2.2.Исследование зависимости информационной функции 75 от трудностей шагов задания

3.3. Применение характеристической кривой задания для 81 исследования адекватности эмпирических данных модели измерения

3.3.1. Процедура построения доверительных интервалов 84 ординат точек эмпирического распределения

3.3.2. Исследование возможностей использования 85 интервальных оценок ординат точек эмпирического распределения для идентификации «плохих» заданий

Глава 4. Описание комплекса программ

4.1. Общий вид комплекса программ

4.1.1. Вкладка "Дихотомические данные"

4.1.2. Вкладка "Полигамические данные"

4.2. Формируемая комплексом программ отчетность

4.2.1. Текстовые отчеты

4.2.2. Графические отчеты

4.3. Проблема качества комплекса программ

4.4. Комплексные проблемы и перспективы

4.5. Выводы 113 Заключение 114 Список использованной литературы 117 Приложение. Листинг фрагмента комплекса программ

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Карданов, Руслан Суфьянович

Актуальность темы исследования. В настоящее время тестирование активно используется для получения информации о результатах той или иной деятельности в самых разных областях - в образовании, управлении, экономике, медицине и т.п., когда имеется ряд вопросов (или показателей), по совокупности- ответов > на которые (или по совокупности значений которых) требуется сделать вывод о качестве,, эффективности или иных параметрах контролируемого процесса. Во-всех подобных случаях ставится задача измерения латентных (скрытых от непосредственного наблюдения) параметров. Средством измерения выступает специально разработанная система измерителей (заданий, показателей, критериев и т.д.).

Применительно к педагогическому тестированию средством измерения является педагогический тест; латентными параметрами - уровни подготовленности участников тестирования и параметры, характеризующие трудность заданий теста. Исходной информацией является матрица ответов, которая содержит баллы всех участников тестирования по всем заданиям теста.

В настоящее время существуют две теории тестирования - классическая (классическая теория тестирования (КТТ)) и современная (Item Response Theory (IRT) в англоязычной литературе, Теория моделирования и параметризации тестов (ТМПТ) - в русскоязычной). Классическая теория была разработана в первой половине 20-го века. Ее достоинство - простота обработки и интерпретации результатов. Однако она обладает целым рядом существенных недостатков, главным из которых является отсутствие объективности измерений. Например, первичные баллы участников зависят от уровня трудности заданий теста и не могут быть рассмотрены в качестве объективной оценки измеряемой латентной переменной - уровня их подготовленности. Другой тест (или даже другой вариант теста) может привести к другим результатам и даже к инверсиям при ранжировании участников. Аналогично, первичные баллы заданий теста зависят от общего уровня подготовленности тех испытуемых, которые принимали, участие в тестировании, и не могут быть рассмотрены в качестве объективной оценки измеряемой латентной переменной - уровня трудности заданий.

Недостатки КТТ привели к появлению» в 60-х годах прошлого столетия принципиально нового подхода к теории тестированияг Основы-современной^ теории тестирования ТМПТ изложены в работах [37,41,43]. В' рамках этой теории, ответ участника тестирования на задание трактуется как реализация? некоторой случайной величины,, распределение которой зависит от параметров задания и параметров испытуемого.

Основная;, цель ТМПТ состоит в разработке математической модели процесса тестирования, параметрами» которой, подлежащими определению, служат характеристики участников« тестирования* и самого теста. В. основе всех моделей- ТМПТ лежит функция успеха, определяющая зависимость вероятности правильного выполнения задания (или какой-либо его части) от уровня подготовленности участника тестирования и параметров задания.

В настоящее время известно довольно много различных математических моделей ТМПТ [41]. Среди них отдельное место занимают модели Раша, обладающие целым рядом, существенных преимуществ» по сравнению с другими моделями ТМПТ. В основе этих моделей лежат принципы, впервые изложенные в работе Feopra Раша- [51], положившей начало отдельному направлению в современной теории тестирования. Именно эти модели являются объектом исследования данной диссертационной работы.

Основное развитие теория моделирования на основе моделей Раша получила в работах B.D.Wright и его учеников M.N.Stone и G.N.Masters-[64,65], а также в работах [14,30,38,54,61]. В этих работах обоснована принципиальная возможность получения на основе моделей Раша инвариантных относительно друг друга оценок параметров модели (уровней подготовленности участников тестирования и трудностей заданий теста), расположенных на единой метрической шкале и сопровождаемых характеристиками точности оценивания. То, что оценки всех латентных параметров находятся на единой метрической шкале, имеет несколько важных применений. Во-первых, это позволяет при соблюдении некоторых условий выравнивать результаты по различным вариантам теста (и даже полученные в разные годы). Во-вторых, метрическая шкала позволяет определять, на сколько< один объект лучше или хуже другого, а не' только сравнивать их по принципу «больше-меньше». В-третьих, метрический характер- шкалы позволяет использовать широкий спектр методов математической статистики.

Однако все преимущества моделей Раша имеют место» лишь в том случае, если эмпирические данные тестирования адекватны» используемой» модели измерения. Для исследования! адекватности и идентификации заданий, не согласующихся с моделью измерения, в рамках моделей Раша наибольшее развитие получили два подхода. В первом используются статистики, получившие название общих статистик согласия-и основанные на нормированных уклонениях наблюдаемого балла за выполнение задания от его математического ожидания согласно модели. Этот подход получил развитие в работах [14,42,55,59]. Во втором используются1 критерии, оценивающие близость модельной характеристической кривой и ее эмпирического аналога, основанного на реальных ответах участников с различным уровнем подготовки. Этот подход изложен в работах [14,41,43,63].

Оба подхода неоднократно подвергались критике. Основной проблемой при использовании первого подхода является выбор критических значений используемых статистик согласия, что обусловлено, в первую очередь, неопределенностью их теоретических распределений и, как следствие, невозможностью использовать в качестве критических значения, определяемые по квантилям соответствующих распределений [45]. В зарубежной литературе эта проблема решается различными способами. В одних работах рекомендуются конкретные допустимые интервалы для наблюдаемых значений статистик согласия [66]. В других работах предлагаются различные формулы коррекции значений статистик согласия, имеющие целью минимизировать зависимость статистик от свойств выборки [58]. В третьих работах, предлагается коррекция критических значений статистик в зависимости от объема выборки [60,64]. В* четвертой группе работ вообще предлагается отказаться от использования указанных статистик в. пользу других (но также не абсолютно надежных) статистик [45;50]. В. любом случае тот факт, что этим статистикам нужна коррекция« их наблюдаемых или критических значений, говорит об их недостатках.

При втором подходе рассматриваются, различные статистики, оценивающие согласие с моделью через близость теоретической« и эмпирической характеристических кривых [14,41,43]. Все они имеют одинаковую природу, и асимптотически распределены по закону хи-квадрат. Основными проблемами при использовании второго подхода являются выбор числа подмножеств разбиения совокупности испытуемых и зависимость используемых статистик от конкретной выборки испытуемых, выполнявших тест. В работе [49] исследована сила различных хи-квадрат статистик. Авторами показано, что эффективность этих статистик недостаточно высока: По поводу числа подмножеств для» разбиения предлагаются различные решения. В некоторых работах предлагается^ это число выбрать произвольно и положить-равным, например, 3 или 10 [41]. В других работах предлагаются различные способы определения,этого числа в зависимости от объема выборки или числа заданий в тесте [2].

Таким образом, несмотря на то, что известны различные методы исследования адекватности эмпирических данных используемой модели измерения, все они обладают серьезными недостатками и не универсальны. Поэтому актуальной является задача разработки надежных методов идентификации заданий, не согласующихся с моделью измерения.

Другой важной проблемой при математическом моделировании теста является исследование эффективности его заданий. Под эффективностью задания будем' понимать количество информации, соответствующей этому заданию, для измерения конкретной выборки испытуемых. Различные задания (даже с одинаковым числом шагов и даже одного уровня трудности) могут по-разному оценивать одних и тех же испытуемых, вкладывая по-разному в информацию об оценке их уровня подготовленности. Далее, одно и то же задание может быть эффективным для измерения одной', группы испытуемых и бесполезным для измерения другой группы. Поэтому* задача выявления факторов, определяющих эффективность заданий; является актуальной.

Целью исследования является разработка и реализация в. виде комплекса программ специальных математических методов и4 алгоритмов идентификации заданий, не согласующихся с моделью измерения, а также исследование эффективности тестовых заданий.

Для достижения поставленной- цели необходимо решить следующие задачи: сравнительное исследование моделей современной' теории тестирования с целью выбора моделей, позволяющих осуществлять объективные измерения; исследование* существующих методов исследования адекватности эмпирических данных используемой" модели« измерения в . рамках, моделей Раша; разработка метода построения интервальных оценок статистик согласия и исследование возможностей использования указанных интервальных оценок для идентификации заданий, не находящихся в согласии с моделью измерения; исследование свойств характеристической функции полигамического задания и возможностей ее применения для исследования адекватности эмпирических данных модели измерения; исследование свойств информационной функции политомического задания и возможностей ее применения для исследования эффективности заданий; развитие статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения; разработка методики, исследований и моделей экспериментов методами имитационного моделирования в рамках моделей Раша; реализация разработанных алгоритмов и методов в виде комплекса программ, пригодного как для прикладного использования, так и для проведения вычислительных экспериментов; экспериментальная проверка разработанных методов и алгоритмов с использованием имитационного моделирования и реальных данных массового тестирования.

Объектом исследования являются математические модели измерения латентных переменных в сфере образования, а также в иных социальных, экономических и технических сферах.

Предметом исследования является адекватность эмпирических данных массового тестирования используемой модели измерения, а также эффективность тестовых заданий для- измерения латентных характеристик участников тестирования.

Методы исследования включают в себя:

1) методы теории моделирования и параметризации тестов, в частности, основанные на математических моделях Г. Раша;

2) методы математической статистики;

3) численные методы, в частности, бутстреп-метод построения доверительных интервалов;

4) методы алгоритмизации и программной реализации математических моделей;

5) имитационное моделирование и вычислительный эксперимент на реальных и модельных данных.

Научная новизна и теоретическая значимость исследования состоит в следующем: разработаны новые численные методы проверки адекватности математической модели Раша; на основе указанных методов разработана технология идентификации заданий, не находящихся в согласии с моделью измерения; исследованы! свойства характеристической и информационной функций, политомического задания и зависимость эффективности,задания от трудностей его .шагов; разработан* комплекс программ для реализации указанных процедур, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретных технологий обработки данных массового тестирования с целью идентификации заданий, не находящихся в согласии с используемой моделью измерения. Указанный комплекс программ прошел государственную регистрацию (свидетельство № 2011614194, зарегистрировано в Реестре программ для ЭВМ 21 мая 2011г.).

Достоверность научных результатов обеспечивается корректностью математических выкладок, а также всесторонней эмпирической проверкой результатов сериями вычислительных экспериментов с использованием имитационного моделирования и реальных данных массового тестирования.

На защиту выносятся:

1) метод построения интервальных оценок статистик согласия;

2) технология идентификации заданий, не находящихся в согласии с моделью измерения;

3) результаты исследования! свойств характеристической и информационной функций политомического задания* и зависимости эффективности задания от трудностей его шагов;

4) усовершенствованный метод оценивания согласия с моделью через близость теоретической и эмпирической характеристических кривых;

5) комплекс программ для реализации указанных методов и технологий, а также проведения вычислительных экспериментов.

Апробация результатов исследования^ и публикации. Основные результаты исследования были доложены на XXI Международной научно-методической конференции «Математика в вузе» (Санкт-Петербург, 2009); международной научно-практической конференции «Новые информационные технологии в образовании» (Екатеринбург, 2011); обсуждались на семинарах «А Nonlinear Mixed Model Framework for Item Response Theory» (Лёвень, Бельгия, 2009) и «Use of Explanatory Item Response Theory Models» (Нидерланды, 2011). По теме диссертации опубликовано 6 работ, в том числе две статьи в журналах, рекомендуемых ВАК, и свидетельство о государственной регистрации программы для ЭВМ.

Структура и объём диссертации. Диссертация состоит из введения, четырех глав и заключения, изложенных на 116 страницах, а также списка литературы и приложения. Объекты каждого типа (формулы, рисунки и таблицы) нумеруются независимо друг от друга. Используется иерархический принцип нумерации, например, формула (3.2.1) есть первая формула второго параграфа третьей главы. В работе имеются 41 рисунок и 27 таблиц. Список литературы содержит 66 наименований.

Заключение диссертация на тему "Разработка и программная реализация методов анализа результатов массового тестирования"

4.5. Выводы

В соответствии, с целями1 диссертационной работы разработан комплекс программ, позволяющий идентифицировать задания, не находящиеся в согласии с используемой моделью измерения.

Реализована^ возможность исследования как дихотомических, так и политомических данных, возможность, проведения бутстреп-анализа, внесения искажений; построения доверительных интервалов; а также формирования широкого спектра текстовой и графической отчетности.

Кроме того предоставлены средства интеграции с. другими, комплексами программ. Готовый продукт поставляется в виде полноценной Javaбиблиотеки, функционал которой можно использовать независимо от сопутствующей ему графической оболочки.

Комплекс программ снабжен всей необходимой документацией и готов к дальнейшей поддержке и возможному расширению функционала.

Комплекс программ «Бутстреп-метод анализа результатов массового тестирования (Bootstrap Method* of the Analysis of Mass Test Results

BootMART)» прошел государственную регистрацию [22].

ИЗ

Заключение

Целью данного диссертационного исследования являлась разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов идентификации заданий, не согласующихся с моделью измерения, а также исследования эффективности тестовых заданий.

В качестве математических моделей тестирования были обоснованно выбраны модели семейства Г. Раша, которые обладают существенными преимуществами перед другими моделями современной теории тестирования. ' Одной из основных проблем при математическом моделировании выступает исследование адекватности эмпирических данных модели измерения. Именно этой проблеме и была преимущественно посвящена данная работа.

В ходе исследования были проанализированы существующие методы исследования адекватности эмпирических данных используемой модели измерения в рамках моделей Раша. В первом подходе используются статистики, получившие название общих статистик согласия и основанные на нормированных уклонениях наблюдаемого балла за выполнение задания от его математического ожидания согласно модели. Во втором используются критерии, оценивающие близость модельной характеристической кривой и ее эмпирического аналога, основанного на реальных ответах участников с различным уровнем подготовки. Выявлены недостатки этих методов, связанные, главным образом, с зависимостью наблюдаемых значений используемых статистик от особенностей распределений выборки испытуемых, выполнявших тест. Это порождает проблему выбора критических значений, которая в настоящее время не имеет удовлетворительного решения.

По результатам исследования разработан метод построения интервальных оценок статистик согласия, в основе которого лежит бутстреп-метод построения доверительных интервалов. Это позволило разработать технологию идентификации: заданий, не находящихся в согласии с моделью измерения.

В; результате исследования свойств характеристической«; функции задания был предложен- метод интервального оценивания?: ординат точек . эмпирического распределения; что позволило- усовершенствовать: метод оценивания: согласия» с моделью через- близость« теоретической? и эмпирической характеристических кривых задания.

Другой? важной проблемой« при математическом моделировании» теста является? исследование, эффективности; (информационного; вклада) его1 заданий. В; результате исследования свойств; информационной функции; задания? и зависимости эффективности задания от трудностей его шагов;;; были выявлены факторы, определяющие эффективность заданий.

Для« реализации разработанных алгоритмов и методов разработан», комплекс; программ; пригодный как для прикладного использования, так и для проведения вычислительных экспериментов^ С использованием этого комплекса программ; была проведена экспериментальная проверка, разработанных- методов и технологий с использованием имитационного моделирования и реальных данных массового тестирования.

На основе этого;получены\следующие результаты: .

1) выполнен анализ существующих методов проверки адекватности математической модели Раша и выявлены недостатки этих методов; • '

2) разработаны новые численные; методы . проверки адекватности математической модели Раша, а именно метод построения; интервальных оценок статистик согласия» и метод интервального оценивания ординат точек эмпирического распределения;

3) на,основе указанных методов разработана технология идентификации заданий, не находящихся в согласии с моделью измерения:

4) разработанные методы и алгоритмы протестированы с применением технологии математического моделирования и вычислительного эксперимента;

5) получили развитие качественные методы исследования математических моделей Раша, а именно исследованы свойства характеристической и информационной функций политомического задания и исследована зависимость эффективности задания от трудностей его шагов;

6) разработан комплекс программ для реализации указанных методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

Комплекс программ «Бутстреп-метод анализа результатов массового тестирования (Bootstrap Method of the Analysis of Mass Test Results BootMART)» прошел государственную регистрацию. Намечены направления для его дальнейшего усовершенствования, что позволит не только оптимизировать работу приложения, но и существенно расширить функционал.

Библиография Карданов, Руслан Суфьянович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Вадзинский, Р.Н. Справочник по вероятностным распределениям' / Р.Н. Вадзинский Текст. СПб.: Наука, 2001. - 295 с.

2. Вероятностные разделы математики / под редакцией Максимова Ю.Д. Текст. СПб.: Иван Федоров, 2001. - 588 с.

3. Гмурман, В.В. Теория вероятностей и математическая статистика / В.В. Гмурман Текст. М.: Высшая школа, 2002. — 479 с.

4. Дубров, А.М. Многомерные статистические методы / А.М1. Дубров, B.C. Мхитарян, Л.И. Трошин Текст. М.: Финансы и статистика, 2000. — 350 с.

5. Карданова, Е.Ю. Основные модели современной теории тестирования / Е.Ю. Карданова, Ю.М. Нейман // Вопросы тестирования в. образовании• Текст. 2003. - № 7. - С. 12-37.

6. Карданова, Е.Ю. Проблема выравнивания, в современной теории тестирования / Е.Ю. Карданова, Ю.М. Нейман // Вопросы тестирования в образовании Текст. 2003. - № 8. - С. 21-40.

7. Карданова, Е. Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования /. Е.Ю. Карданова* // Вопросы тестирования в образовании Текст. — 2004. № 10. - С. 7-34.

8. Карданова, Е.Ю. Математические модели многофасетного анализа / Е. Ю. Карданова // Вопросы тестирования в образовании1 Текст. — 2004. -№11.-С. 11-27.

9. Карданова, Е.Ю. Применение многопараметрического анализа для исследования деятельности экспертов / Е.Ю. Карданова // Вопросы тестирования в образовании Текст. — 2005. — № 14. — С. 6—31.

10. Карданова, Е.Ю. Выравнивание показателей в случае экспертного оценивания заданий / Е.Ю. Карданова // Известия Томского политехнического университета Текст. — 2007. — №3. Том 310. — С. 233237.

11. Карданова, Е.Ю. Технология обработки информации в многокритериальном мониторинге на основе полигамической модели Г. Раша / Е.Ю. Карданова, В.Б. Карпинский // Системы управления и информационные технологии Текст. — 2007. — № 3.1(29). — С. 149-154.

12. Карданова, Е.Ю. Специальные методы анализа результатов тестирования, основанные на свойстве объективности моделей Раша / Е.Ю. Карданова, В.Б. Карпинский // Информационные технологии Текст. 2008. - № 4 (140). - С. 72-80.

13. Карданова, Е.Ю. Моделирование и параметризации тестов: основы теории и приложения / Е.Ю. Карданова Текст. — М.: Федеральный центр тестирования, 2008. — 304 с.

14. Карданова, Е.Ю. Использование эксперимента на модели Раша для выявления недостоверных результатов тестирования / Е.Ю. Карданова,

15. B.Б. Карпинский // Информационные технологии Текст. 2009. - №6.1. C. 74-79.

16. Карданова, Е.Ю. О некоторых свойствах характеристической и информационной; функций полигамического тестового задания / Е.Ю. Карданова, E.G. Карданов // Вестник Новгородского государственного университета Текст. 1 2010. — №55. — С. 19—24.

17. Карданова, Е.Ю. Построение интервальных оценок статистика согласия при анализе результатов? массового тестирования в рамках моделей F. Раша / Е.Ю; Карданова, P.C. Карданов // Информационные технологии Текст. — 2010. — №9; — С;64—70.

18. Карданов, P.C. Построение интервальных оценок статистик согласия« полигамических; , тестовых заданий / P.C. Карданов // Вестник Новгородского государственного университета Текст. — 2011. — №60. — С.36-41.

19. Карданов, P.C. Свидетельство о государственной? регистрации; программ для: ЭВМ № 2011614194. Бутстреп-метод анализа результатов массового тестирования (Bootstrap* Method of the Analysis of Mass Test Results BootMART) / Р.С.Карданов. M.; Роспатент, 2011

20. Карпинский, В.Б. Исследование эффективности общих статистик согласия для обнаружения искажений при массовом тестировании / В.Б. Карпинский // Вопросы тестирования в образовании Текст. — 2006. -№1(17).-С. 7-14.

21. Кирьянов Б.Ф. Разработка и совершенствование методов стохастического^ моделирования* / Б.Ф. Кирьянов // Вестник Новгородского государственного университета Текст. — 2001. — №19. — С.108-1Г5.

22. Кирьянов Б.Ф. Моделирование непрерывных случайных величин по их статистическим, распределениям / Б.Ф. Кирьянов // Вестник Новгородского государственного университета Текст. — 2005. — №34. — С.69-72.

23. Кирьянов Б.Ф. Интегральные показатели^ качества систем / Б.Ф. Кирьянов // Сборник материалов международной научно-методической конференции «Математика в вузе» Текст. СПб., 2008. — С. 8-9.

24. Кирьянов Б.Ф. Математическое моделирование на ЭВМ / Б.Ф. Кирьянов Текст. Вел. Новгород: НовГУ, 2011. — 90 с.

25. Медик, В. А. Статистика в медицине и биологии5 / В.А. Медик, М.С. Токмачев, Б.Б. Фишман Текст. -М.: Медицина, 2000.' 454 с.

26. Нейман, Ю.М. Введение в теорию моделирования и параметризации* педагогических тестов / Ю.М. Нейман, В.А. Хлебников Текст. М.: Прометей, 2000. - 169 с.

27. Нейман, Ю.М. Педагогическое тестирование как измерение / Ю.М. Нейман, В.А. Хлебников Текст. М.: Центр тестирования МО РФ, 2002.-67 с.

28. Нейман, Ю.М. Как оценивается уровень подготовленности учащихся по результатам единого государственного экзамена / Ю.М. Нейман, В.А. Хлебников Текст. — М.: Центр Тестирования МО РФ; 2003. — 44 с.

29. Pao, С.Р. Линейные статистические методы и их применение / С.Р. Pao Текст. -М.: Наука, 1968. 548 с.

30. Эфрон, Б. Нетрадиционные методы многомерного статистического анализа / Б. Эфрон Текст. М.: Финансы и статистика, 1988. - 263 с.

31. Adams, R.J. The Multidimensional Random Coefficients Multinomial Logit Model / RJ. Adams, M. Wilson and W. Wang // Applied Psychological Measurement Текст. 1997. - 21(1). - Pp. 1-23.

32. Andrich, D. The Rasch Model Explained / D. Andrich // Applied Rasch Measurement: A book of Exemplars Текст. —N.-Y.: Springer-Kluwer, 2005. — Pp. 308-328.

33. Baker, F.B. The Bsics of Item Response Theory / F.B.Baker Текст. -ERIC Clearinghouse on Assessment and Evaluation, 2001. — 176 p.

34. Bond, Tr.G. Applying the Rasch Model: Fundamental Measurement in the Human t Sciences / Tr.G. Bond, C.M. Fox Текст. New Jersey: Lawrence Erlbaum Associates, Inc., Publishers, 2001. — 255 p.

35. DiCiccio, T.J. Bootstrap Confidence Intervals / T.J. DiCiccio, B. Efron // Statistical Science Текст. 1996. -№ 3. - pp. 189-228.

36. Dimitrov, D.M. Adjusted Rasch Person-Fit Statistics / D.M. Dimitrov, R.M. Smith // Journal of Applied Measurement Текст. 2006. - 7(2). -Pp. 170-183.

37. Embretson, S.E. Item Response Theory for Psychologists / S.E. Embretson, S.P. Reise Текст. — New Jersey: Lawrence Erlbaum Associates, Publishers, 2000.-371 p. .

38. Gustafsson, J.-E. Testing and Obtaining Fit of Data to the Rasch Model / J.-E. Gustafsson // British Journal of Mathematical and Statistical Psychology Текст. 1980. -№ 33. - Pp. 205-233.

39. Hambleton, R.K: Fundamentals of Item Response Theory / R.K. Hambleton, H. Swaminathan, H.J. Rogers Текст. — London: Sage Publications, 1991. 174 p.

40. Huynh, H. Maximum information approach to scale description for affective measures based on the Rasch model / H. Huynh, P.L. Meyer // Journal of Applied Measurement Текст. 2003. - № 4(2). - Pp. 1010-1019.121

41. Karabatsos, G. A Critique of Rasch Residual Fit Statistics / G. Karabatsos // Journal of Applied Measurement Текст. 2000. - № 1(2). - Pp. 152-176.

42. Linacre, J.M. Construction of Measures from Many-facet Data / J.M. Linacre, B.D. Wright // Journal of Applied Measurement Текст. 2002. — №3(4).-25 p.

43. Linacre, J.M. Dichotomous & Polytomous Category Information I J.M. Linacre // Rasch Measurement Transactions Текст. — 2005. — № 19(1). — Pp 1005-6.

44. Luo, G. The Relationship between the Rating Scale and Partial4 Credit Models and »the Implication of Disordered Thresholds of the Rasch Models for Polytomous Responses / G. Luo // Journal of Applied Measurement Текст. — 2005. № 6(4). - Pp. 443—455.

45. McKinley, R.L. A Comparison of Several Goodness-of-fit Statistics / R.L. McKinley, C.N. Mills // Applied Psychological Measurement Текст. -1985. № 9. - Pp.49-57.

46. Penfïeld, R.D. Unigue Properties of Rasch Model Item Information Functions / R.D. Penfield // Journal of Applied Measurement Текст. 2005. -№6(4).-Pp. 355-365.

47. Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests / G. Rasch Текст. Chicago: MESA Press, 1993.-199 p.

48. Smith, Е.У. Detecting and Evaluating the Impact of Multidimensionality using Item Fit Statistics and Principal Component Analysis of Residuals / E.V. Smith // Journal of Applied Measurement Текст. 2000. - № 1(2). -Pp. 199-218.

49. Smith, Е.У. Evidence for the Reliability of Measures Interpretation /E.V. Smith // Journal of Applied Measurement Текст. 2001. - №2(3). -Pp. 281-311.

50. Smith, E.V. Introduction to Rasch Measurement / E.V. Smith, R.M. Smith Текст. Maple Grove, Minnesota: JAM Press, 2004. - 687 p.

51. Smith, R.M. Fit Analysis in Latent Trait Measurement Models / R.M. Smith

52. Journal of Applied Measurement Текст. 2000. - № 1(2). - Pp. 199-218.t

53. Smith, R.M. Rasch Measurement Models: Interpreting W insteps / R.M. Smith // Bigsteps and Facets Output Текст.: — Maple Grove, Minnesota: JAM Press, 1999. 58 p. Л r

54. Smith; RM: The:DistributionahProperties of Rasch-Standardized Residuals / R.M. Smith // Educational and Psychological Measurement Текст. 1988. — № 48. - Pp. 657-667. ' ,

55. Wang, W.-C. Item Parameter Recovery, Standard Error Estimates; and Fit Statistics of the Winsteps Program for the Family of Rasch Models / W.-C. Wang, G.-T. Ghen //Educational and Psychological'Measurement Текст. -2005. -№ 65(3). Pp. 376-404.

56. Wilson; M. Constructing Measures: An Item Response Modeling Approach / M. Wilson Текст. Mahwah, New Jersey: Lawrence; Erlbaum Associates; Publishers, 2005. - 228 p.

57. Wollenberg, AX. A Simple andl. Effective Method' to Test the Dimensionality Axiom of the Rasch Model / A.L. van den Wollenberg // Applied Psychological Measurement Текст. 1982. -6(1). - Pp. 83-91.

58. Wollenberg, A.L. Two New Test Statistics for the Rasch Model / A.L. van den Wollenberg // Psychometrika Текст. 1982. - 47(2). -Pp. 123-139.

59. Wright, B.D. Best Test Design. Rasch Measurement / B.D. Wright, M.N. Stone Текст. Chicago: Mesa Press, 1979. - 223 p.

60. Wright, B.D. Rating Scale Analysis. Rasch Measurement / B.D. Wright, G.N. Masters Текст. Chicago: Mesa Press, 1982. - 206 p.

61. Wright, B.D. Reasonable Mean-Square Fit Values / B.D. Wright, J.M. Linacre // Rasch Measurement Transactions Текст. 1994. - № 8:3. — Pp. 370.