автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математические модели тестирования, позволяющие осуществлять измерения
Автореферат диссертации по теме "Математические модели тестирования, позволяющие осуществлять измерения"
УДК 37.012
На правах рукописи
ОВЧИННИКОВ ВСЕВОЛОД ВАЛЕНТИНОВИЧ
МАТЕМАТИЧЕСКИЕ МОДЕЛИ ТЕСТИРОВАНИЯ, ПОЗВОЛЯЮЩИЕ ОСУЩЕСТВЛЯТЬ ИЗМЕРЕНИЯ
05.13.18 - математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
ВЕЛИКИЙ НОВГОРОД - 2006
Работа выполнена в Федеральном центре тестирования и в Московском государственном университете геодезии и картографии.
Научный руководитель:
доктор технических наук профессор Нейман Ю.М.
Официальные оппоненты:
доктор технических наук профессор Яшкин С.Н.
кандидат физ.-мат. наук доцент Тихомиров A.C.
Ведущая организация: - Уральский государственный технический университет, (г. Екатеринбург).
Защита диссертации состоится « / » л^арго. 2006 г. в « 1к » часов на заседании диссертационного совета Д 212.168.04 в Новгородском государственном университете им. Ярослава Мудрого по адресу:
173003, Великий Новгород, ул. Большая Санкт-Петербургская, 41. ауд. «_»
Автореферат разослан «1Г» Jtt< I» рх_2006 г.
Ученый секретарь
диссертационного совета Д 212.168.04 доктор физико-математических наук,
профессор
МЮ6А
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Данная работа посвящена использованию математических моделей в такой казалось бы нетрадиционной для математики области как педагогическое тестирование. Основная цель - теоретически исследовать возможности оценивать учебные достижения испытуемых на метрической шкале и трактовать, таким образом, педагогическое тестирование как процесс измерения - в полном смысле этого слова. Понятно, что подобная трактовка возможна только в рамках определенной модели, и наша задача - выделить тот класс моделей, которые действительно позволяют отказаться от традиционной порядковой шкалы (отлично, хорошо и т.п.) и перейти на детальную шкалу интервалов.
Идея массового оценивания каких-либо характеристик испытуемых при помощи более дешевых и более объективных, по сравнению с экспертными оценками, тестов возникла достаточно давно. Однако реальное научное обоснование заложено только в конце прошлого столетия в работах математиков G. Rasch (Дания) и W. Wright (США), показавших принципиальную возможность инвариантности количественных характеристик испытуемых относительно количественных характеристик тестовых заданий. В нашей стране подобные результаты получили название "Теория моделирования и параметризации тестирования", сокращенно ТМПТ.
В рамках этой теории ответ участника тестирования на задание трактуется как реализация некоторой случайной величины, чье распределение зависит от многих параметров, в частности от параметров самого задания и параметров самого испытуемого. Основу модели составляет так называемая функция успеха, описывающая вероятность верного выполнения того или иного задания тем или иным участником тестирования в зависимости от параметров этого задания и этого участника тестирования.
В настоящее время разработано довольно много ТПМТ моделей, но не проводилось анализа этих моделей на способность к измерению. В основном анализировалась адекватность модели реальным данным. Не существовало функции, дающей характеристику тес,та в целом,
РОС НАЦИОНАЛЬНАЯ. БИБЛИОТЕКА 1
К тому же, недостаточно исследованы численные методы оценивания параметров различных моделей. При конструировании тестов довольно часто используется информационная функция задания (количество информации по Фишеру), однако, совсем неисследованным оказался подход, основанный на весовых функциях задания.
Задача конструирования тестов обычно сводится к задаче линейного программирования. Для некоторых частных случаев были описаны соответствующие им задачи линейного программирования, но не оказалось методики, позволяющей представить задачу конструирования тестов для произвольной спецификации в виде задачи линейного программирования. Все это и определило направление исследований и выбор темы диссертационной работы.
Направление исследований: Измерения в рамках математических моделей тестирования при заданиях различных типов и прикладные вопросы, связанные с конструированием тестов.
Цель диссертационной работы:
1. Исследовать измерительные свойства наиболее распространенных моделей теории моделирования и параметризации тестов.
2. Для дихотомического случая, в предположении, что уровень подготовленности участника тестирования характеризуется одним числом и трудность задания характеризуются одним числом, вывести общий вид модели, позволяющей производить измерения. Обобщить полученную модель на случай заданий политомического типа.
3. Исследовать существующие методы оценивания параметров моделей.
4. В рамках модели с частично верными ответами сравнить эффективность использования весовой и информационной функции задания.
5. Разработать методику конструирования тестов по любой наперед заданной спецификации
Методы исследования: В диссертации использовались методы математической статистики, в частности, классические
методы теории оценивания, методы математической логики и методы линейного программирования
Достоверность_результатов: Достоверность
полученных в диссертации результатов основана на корректности математических доказательств и многократных экспериментах.
Научная новизна: Исследованы четыре наиболее распространенные модели ТМПТ. Выявлено, что из четырех рассмотренных моделей только в рамках однопараметрической модели Раша возможно осуществлять измерения. Для частного случая выведен класс моделей, позволяющих производить измерения. Полученный класс моделей обобщен на случай политомических заданий. Получены аналитические выражения характеристических функций теста в случае равномерного и нормального распределения трудностей заданий, входящих в тест. Исследованы методы оценки параметров моделей. В рамках модели с частично верными ответами получены аналитические выражения для весовых функций теста и задания. Показано, что весовая функция задания совпадает с информационной функцией задания. Разработана методика, позволяющая конструировать тесты по любой наперед заданной спецификации
Практическая_значимость: Результаты
диссертационной работы могут быть использованы при обработке данных практически любой процедуры педагогического тестирования, нацеленной на измерение уровня подготовленности испытуемых. Также разработана методика конструирования тестов с заданными свойствами.
Апробация работы: Результаты диссертационной работы докладывались:
• на 56-й научно-технической конференции студентов, аспирантов и молодых ученых. Москва, 2001 г. МосГУГиК;
• на 2, 3 и 6 всероссийских конференциях "Развитие системы тестирования в России", Москва, 2000, 2001 и 2004 г.г. Федеральный центр тестирования;
• на всероссийской конференции "Анализ качества образования и тестирование", Москва, 2001 г. МЭСИ.
• на расширенном заседании кафедры Высшей математики Новгородского государственного университета имени Ярослава Мудрого, Великий Новгород, 2005 г. Разработанное программное обеспечение успешно используется Федеральным Центром тестирования для обработки результатов централизованного тестирования, единого государственного экзамена, для сопровождения базы данных тестовых заданий.
Публикации: Основные результаты диссертации опубликованы в работах [1]-[10].
Структура и объем работы: Диссертация состоит из введения, трех глав основного текста, приложения и списка цитированной литературы. Объем диссертационной работы составляет 106 стр., список литературы содержит 66 наименований.
КРАТКОЕ СОДЕРЖАНОЕ РАБОТЫ
Во введении обосновывается актуальность выбора темы и приводится краткая характеристика работы.
В первой главе дается краткий исторический обзор развития теории тестирования, ставятся основные цели диссертации.
В разделе 1.1 описывается методика, получившая название классической теории тестирования. Показываются недостатки этой методики, и поясняется, почему от нее пришлось отказаться.
В разделе 1.2 рассматривается теория моделирования и параметризации тестов (ТМПТ), пришедшая на смену классической теории. Обосновываются цели диссертационного исследования. Подробно разбираются четыре основные модели ТМПТ. А именно:
Нормальная модель, в рамках которой вероятность верного выполнения испытуемым с уровнем подготовленности в задания с параметрами 6 и (1 имеет вид:
^ а(в-в) ( _2 ^
Р(в,б,(1) = -] ехр
V —оо
г
~2
Однопараметрическая модель Раша, в рамках которой вероятность верного выполнения испытуемым с уровнем подготовленности в задания с параметром 6 имеет вид:
1 + ехр(<?-<5)
Двухпараметрическая модель Бирнбаума, в рамках которой вероятность верного выполнения испытуемым с уровнем подготовленности в задания с параметрами 3 и (1 имеет вид:
Трехпараметрическая модель Бирнбаума, в рамках которой вероятность верного выполнения испытуемым с уровнем подготовленности в задания с параметрами 6, (1 и с имеет вид:
W.rf.O-c + Cl-c):
\ + QXV{d{0-S)) Во второй главе исследуются измерительные свойства различных математических моделей тестирования. Формулируются требования к модели, как к измерительному инструменту. Показывается, что из четырех рассмотренных в предыдущей главе моделей, только однопараметрическая модель Раша удовлетворяет всем предъявляемым требованиям.
Для частного случая, когда уровень подготовленности испытуемого характеризуется одной скалярной величиной в и уровень трудности задания также характеризуется одной скалярной величиной выведен общий вид модели, удовлетворяющей вышеперечисленным требованиям. Вероятность верного выполнения задания трудности д испытуемым с уровнем подготовленности в в рамках этой модели имеет вид:
1 + ехр(0-<?)Р(1,1)->Р(1,1)'
где Р( 1,1) - вероятность верного выполнения стандартным испытуемым с единичным уровнем подготовленности задания
единичной трудности. Если предположить, что -Р(1Д) = , то
данная модель превращается в однопараметрическую модель Раша.
Выведено обобщение полученной модели на случай заданий политомического типа. Если задание состоит из к+1 категории и трудность перехода из (]'-1)-й категории в j-ю равна 5 , то при решении данного задания вероятность попадания
испытуемым с уровнем подготовленности в в категорию с номером 1 имеет вид:
V
P(U)
Р( 1,1) Л
1=0
1-P(1,1)
где = 0.
В третьей главе рассматриваются различные прикладные вопросы, связанные с обработкой результатов тестирования и с конструированием тестов.
В разделе 3.1, на примере однопараметрической модели Раша, изучаются существующие на данный момент методы оценивания параметров моделей ТМГТТ.
Три метода из четырех рассмотренных связаны с методом максимального правдоподобия, четвертый метод основан на классическом подходе к оцениванию параметров.
Первый метод называется методом классического максимального правдоподобия. Функция правдоподобия имеет вид:
-- ЛЛехР (*,,(4-<*,)) Цх <?><?) = ПП ——.
где N - количество испытуемых, п - количество заданий в тесте, 01 - уровень подготовленности ьго испытуемого, 8 - уровень
трудности ,)-го задания, х11 - ответ ¿-го испытуемого на .¡-е задание.
Недостаток этого метода заключается в том, что функция правдоподобия одновременно зависит и от параметров участников тестирования и от параметров заданий. То есть, данный метод не позволяет независимо друг от друга оценить уровни подготовленности участников и параметры заданий.
Второй метод называется методом безусловного максимального правдоподобия. Предположим, что функция плотности распределения уровней подготовленности испытуемых известна и равна . Тогда, функция
правдоподобия имеет вид:
Чх I 8) = ПЕПц у '
где N - количество испытуемых, п - количество заданий в тесте, Хк - к-я квадратурная точка функции , Ак - вес к-ой
квадратурной точки, 5 - уровень трудности ]-го задания, х1] -ответ 1-го испытуемого на .¡-е задание. Находя максимум данной
функции, получаем оценки трудностей заданий. Далее, зная оценки трудностей заданий, можно получить оценки уровней подготовленности испытуемых, например, используя байесовский подход.
Данный метод позволяет независимо друг от друга оценивать параметры заданий и уровни подготовленности участников. Однако, выбор функции плотности распределения уровней подготовленности участников тестирования очень сложно обосновать. Довольно часто в качестве функции плотности берут плотность нормально распределенной случайной величины с нулевым средним и с единичной дисперсией. Но подобный выбор, как, впрочем, и все остальные выборы, никто не обосновывает.
Третий метод называется методом условного максимального правдоподобия. Функция правдоподобия имеет вид:
Г N п \
ехр -YЛLX^.JSJ
ш
1=1
где N - количество испытуемых, п - количество заданий в тесте, г - вектор с количеством верно выполненных каждым из участников тестирования заданий,
гп= X ехр-2>.,Л •
ЙИ 1 - )
Находя максимум данной функции, получаем оценки трудностей заданий. Аналогично можно получить оценки параметров испытуемых.
Данный метод оценки позволяет осуществить независимую от уровней подготовленности калибровку заданий и независимую от параметров заданий оценку уровней подготовленности. Следует отметить, что данный метод существенно использует тот факт, что первичный балл участника тестирования является достаточной статистикой для уровня подготовленности, а первичный балл задания -достаточной статистикой для трудности задания.
Четвертый метод основан на классическом подходе к оцениванию параметров. Составляются разности вида:
где п - количество заданий теста, 5к - трудность к-го задания,
Р - вероятность того, что некий испытуемый с уровнем
подготовленности в верно выполнит задание а при выполнении задания § ошибется. Зная ответы испытуемых на задания можно, при помощи классических методов оценивания параметров, оценить / . Так как в рамках
однопараметрической модели Раша все параметры определяются с точностью до сдвига, то, зафиксировав трудность одного из заданий, по значениям I/ ^ можно получить оценки параметров
остальных заданий. Аналогичным образом определяются параметры испытуемых. Данный метод оценки, как и предыдущий, позволяет осуществить независимую от уровней подготовленности калибровку заданий и независимую от параметров заданий оценку уровней подготовленности.
Таким образом, только последние два метода позволяют реализовать раздельное оценивание параметров испытуемых и параметров заданий без каких-либо дополнительных предположений.
В разделе 3.2 вводится понятие характеристической функции теста. Если тест состоит из п заданий и _)'-е из заданий состоит из к +1 категорий, пронумерованных от 0 до к], то, характеристическая функция теста имеет следующий вид:
У=1
Выводится аналитический вид этой функции при равномерном распределении трудностей заданий на отрезке [—у, /]
1
Ъ%(в) = — 1п 12 у
1 1дехр(#) + ехр {-у)
2 у ехр(6г) + ехр(/)
+ 1 -100%.
Выводится аналитический вид этой функции при нормальном (Ы{т, а1) распределении трудностей заданий
в-т
гдеТ(х) =
Ъ%{0) = ¥ 1
•100%,
1 + ехр(-х)
В разделе 3.3 рассматриваются вопросы, связанные с конструированием теста. Вводится понятие веса задания и веса теста. Вес теста определяется по формуле
« к1 дР Л ^ ы дв
л (Ч > 2 '
I Е'Ч, - 2Х/
7=1 /=1
а вес j-го задания - по формуле
Я дв
V
к, (к, - ж.
1=1
2 '
Ы
где п - количество заданий в тесте, к] -количество категорий в м задании, Р}; - вероятность попадания при решении задания с
номером j в категорию с номером 1 участником тестирования с уровнем подготовленности в.
Доказывается, что, в случае модели с частично верными ответами, то есть, когда вероятность попадания при решении задания с номером } в категорию с номером 1 участником тестирования с уровнем подготовленности в имеет вид:
р =_ехр(/<?-4-...-4)_
где д1 - трудность 1-й категории задания, аналитические
выражения для веса задания и для фишеровской информации задания совпадают. Также показывается, что, весовая функция теста равна сумме весовых функций заданий, входящих в этот тест.
Изучается вопрос конструирования тестов. Рассматриваются различные типы целевых функций и ограничений, и предлагается методика, позволяющая создавать тест из уже имеющихся заданий по любой наперед заданной спецификации.
В приложении описывается комплекс программ, разработанный при непосредственном участии и под руководством автора для проведения обработки результатов тестирования и сопровождения базы данных тестовых заданий.
ЗАКЛЮЧЕНИЕ
На защиту выносятся следующие основные результаты работы:
1. Формулировка и обоснование критериев, позволяющих судить о возможности выполнять измерения в рамках той или иной модели ТМПТ.
2. Результаты анализа при помощи выведенных критериев наиболее распространенных на данный момент моделей ТМПТ.
3. Общий вид модели, позволяющей производить измерения в случае, когда каждое тестовое задание и каждый участник тестирования характеризуется ровно одним параметром. Обобщение модели на случай заданий политомического типа.
4. Вывод аналитического выражения характеристической функции теста в случае равномерного и нормального распределения трудностей заданий.
5. Доказательство совпадения весовой и информационной функции задания в случае модели с частично верными ответами.
Методика, позволяющая в терминах линейного программирования сформулировать сколь угодно сложные условия на отбор заданий и сконструировать тест с заранее заданными свойствами. Комплекс программного обеспечения, позволяющий:
• обрабатывать результаты тестирования в рамках модели с частично верными ответами,
• пополнять и сопровождать базу данных тестовых заданий,
• конструировать тесты, отвечающие определенным заранее сформулированным требованиям.
Реповые результаты диссертации опубликованы в работах:
1. Ю.М. Нейман, В.В. Овчинников. Оценки параметров уровня подготовленности тестируемых и трудности заданий в рамках двухпараметрической модели // Тезисы докладов второй всероссийской конференции "Развитие системы тестирования в России." - 2000. - с. 52-53.
2. Н.В. Березин, В.В. Овчинников. База данных заданий централизованного тестирования. // Вопросы тестирования в образовании. - 2001. - №1. - с. 57-61.
3. В.В. Овчинников. Оценивание учебных достижений учащихся при проведении централизованного тестирования. - М.: "Век книги", 2001. - 27 с.
4. В.В. Овчинников. Оценка латентных параметров испытуемых. // Тезисы докладов всероссийской конференции "Анализ качества образования и тестирование." - 2001. - с. 215-223.
5. В.В. Овчинников. Двухпараметрическая логистическая бинарная модель. // Тезисы докладов 56-й научно-технической конференции студентов, аспирантов и молодых ученых. - 2001. - с. 41-43.
6. В.В. Овчинников. Шкалирование результатов централизованного тестирования в 2001 году. // Тезисы докладов третьей всероссийской конференции "Развитие системы тестирования в России." - 2001. - с. 106-108.
7. В.А. Хлебников, В.В. Овчинников. О точности измерения тестового балла. // Вопросы тестирования в образовании. - 2002. - №4 - с. 53-62.
8. Ю.М. Нейман, В.В. Овчинников, В.А. Хлебников. Характеристическая функция теста. // Вопросы тестирования в образовании. - 2003. - №7. - с. 38-54.
9. В.В. Овчинников. О точности результатов ЕГЭ 2004 г. // Тезисы докладов шестой всероссийской конференции "Развитие системы тестирования в России.". - 2004. с. 50-52.
10. В.В. Овчинников. Математические модели тестирования при наличии заданий политомического типа. // Scientific Papers / Great Novgorod: NovSU. - 2005.
Тираж 100 экз.
Издательство Федерального центра тестирования 119991, г. Москва, Ленинский проспект, д. 6, стр. 7
Оглавление автор диссертации — кандидата технических наук Овчинников, Всеволод Валентинович
Введение
1 Основные модели теории тестирования
1.1 Классическая теория тестирования.
1.2 Теория моделирования и параметризации тестов.
1.2.1 Нормальная модель.
1.2.2 Однопараметрическая модель Раша.
1.2.3 Двухпараметрическая модель Бирнбаума.
1.2.4 Трехпараметрическая модель Бирнбаума.
2 Измерения и модели
2.1 Исследование измерительных возможностей процедуры тестирования.
2.2 Модель, позволяющая производить измерения.
2.3 Модель, позволяющая производить измерения. Политомический случай.
3 Прикладные вопросы ТПМТ
3.1 Методы оценивания.
3.1.1 Классический метод максимального правдоподобия и его применение.
3.1.2 Метод безусловного максимального правдоподобия и его применение.
3.1.3 Метод условного максимального правдоподобия и его применение.
3.1.4 Метод, основанный на классическом подходе к оцениванию параметров.
3.2 Характеристическая функция теста.
3.2.1 ХФТ при равномерном распределении трудностей тестовых заданий.
3.2.2 ХФТ при нормальном распределении трудностей тестовых заданий.
3.2.3 Сравнение ХФТ при различных распределениях трудностей заданий.
3.3 Конструирование тестов.
3.3.1 Информационная функция задания. Информационная функция теста.
3.3.2 Весовая функция задания. Весовая функция теста
3.3.3 Задача линейного программирования.
3.3.4 Линейное программирование и конструирование тестов
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Овчинников, Всеволод Валентинович
Данная работа посвящена использованию математических моделей в такой казалось бы нетрадиционной для математики области как педагогическое тестирование. Основная цель - теоретически исследовать возможности оценивать учебные достижения испытуемых на метрической шкале и трактовать, таким образом, педагогическое тестирование как процесс измерения - в полном смысле этого слова. Понятно, что подобная трактовка возможна только в рамках определенной модели, и наша задача - выделить тот класс моделей, которые действительно позволяют отказаться от традиционной порядковой шкалы (отлично, хорошо и т.п.) и перейти на детальную шкалу интервалов.
Идея массового оценивания каких-либо характеристик испытуемых при помощи более дешевых и более объективных, по сравнению с экспертными оценками, тестов возникла достаточно давно. Однако реальное научное обоснование заложено только в конце прошлого столетия в работах математиков G. Rasch (Дания) и W. Wright (США), показавших принципиальную возможность инвариантности количественных характеристик испытуемых относительно количественных характеристик тестовых заданий. В нашей стране подобные результаты получили название "Теория моделирования и параметризации тестов", сокращенно ТМПТ.
В рамках этой теории ответ участника тестирования на задание трактуется как реализация некоторой случайной величины, чье распределение зависит от многих параметров, в частности от параметров самого задания и параметров самого испытуемого. Основу модели составляет так называемая функция успеха, описывающая вероятность верного выполнения того или иного задания тем или иным участником тестирования в зависимости от параметров этого задания и этого участника тестирования.
В настоящее время разработано довольно много моделей ТПМТ. Эти модели широко используются в медицине, биологии, педагогике ([39], [56]). Разрабатывались критерии, позволяющие судить об адекватности модели реальным данным. Исследовалась адекватность существующих на данный момент моделей реальным данным, сравнивались между собой различные критерии адекватности. Автором исследовалась адекватность модели с частично верными ответами. Эта модель используется в настоящее время для обработки результатов централизованного тестирования и единого государственного экзамена. В результате анализа было установлено, что в целом, модель адекватна реальным данным, но существует небольшое количество заданий, для которых значение статистики, используемой для проверки адекватности, существенно превышает допустимый порог. Причем уровень трудности этих заданий значительно превышал среднюю трудность по тесту, то есть эти задания были очень сложны для выполнения. При детальном изучении этих заданий выяснилось, что причина неадекватности заключается в том, что небольшое количество участников тестирования (5-10 человек) с низким уровнем подготовленности получили за эти задания высокие баллы (или, если речь идет о дихотомических заданиях, верно их выполнили). В силу того, что уровень трудности этих заданий намного выше среднего, можно предположить, что слабо подготовленные участники тестирования получили высокие баллы не решая эти задания, а списывая их. В случае честного решения этих заданий, участники тестирования с низким уровнем подготовленности получили бы за эти задания минимально возможные баллы. После внесения соответствующих изменений в матрицы ответов и пересчета результатов выяснилось, что трудности этих заданий остались практически такими же, какими были до изменений, а мера согласия данных с моделью значительно улучшилась. То есть неадекватность модели была обусловлена несоблюдением правил проведения процедуры тестирования. Более подробно эти результаты изложены в [30].
Однако вопросы, связанные с адекватностью моделей, выходят за рамки данной работы, поэтому в дальнейшем к вопросам адекватности автор возвращаться не будет. Более детально с ними можно ознакомиться, например, в работах [58], [65], [66].
Не существовало функции, дающей характеристику теста в целом. К тому же, недостаточно исследованы численные методы оценивания параметров различных моделей. При конструировании тестов довольно часто используется информационная функция задания (количество информации по Фишеру), однако, совсем неисследованным оказался подход, основанный на весовых функциях задания.
Задача конструирования тестов обычно сводится к задаче линейного программирования. Для некоторых частных случаев были описаны соответствующие им задачи линейного программирования, но не оказалось методики, позволяющей представить задачу конструирования тестов для произвольной спецификации в виде задачи линейного программирования. Все это и определило направление исследований и выбор темы диссертационной работы.
Диссертация состоит из введения, трех глав и приложения.
Заключение диссертация на тему "Математические модели тестирования, позволяющие осуществлять измерения"
4 Заключение
Область применения различных моделей тестирования практически неогра-ничена. Различные модели используются в биологии, медицине, педагогике. Но для того, чтобы полноценно использовать все те преимущества, которые дает тестирование по сравнению с остальными формами контроля знаний, необходимо, чтобы результаты тестирования находились на метрической шкале. Тогда тестирование можно будет трактовать как процесс измерения в полном смысле этого слова. Как показано в данной работе, не для всех моделей ТМПТ возможна подобная трактовка. Одной из целей данной работы было выделение класса моделей, позволяющих получать результаты тестирования на метрической шкале. Так как свойства оценок параметров модели зависят не только от вида модели но и от способа их получения, то еще одной целью данной работы стало исследование существующих методов оценивания параметров модели. Также в данной работе было введено понятие характеристической функции теста и получены ее аналитические выражения в случае равномерного и нормального распределения параметров заданий. Был исследован подход к конструированию тестов, основанный на весовых функциях задания. Показано, что в рамках одной из моделей аналитические выражения весовой и информационной функций совпадают. Для облегчения процесса конструирования тестов была разработана и реализована методика, позволяющая конструировать тесты по любой наперед заданной спецификации, рассмотрены вопросы, связанные с конструированием тестов.
На защиту выносятся следующие результаты.
• Формулировка и обоснование критериев, позволяющих судить о способности модели ТМПТ к измерению.
• Анализ при помощи выведенных критериев наиболее распространенных на данный момент моделей ТМПТ.
• Общий вид модели, позволяющей производить измерения в случае, когда каждое тестовое задание и каждый участник тестирования характеризуется ровно одним параметром. Обобщение модели на случай политомических заданий.
• Вывод аналитического выражения характеристической функции теста в случае равномерного и нормального распределения трудностей заданий.
• Доказательство совпадения весовой и информационной функции задания в случае модели с частично верными ответами.
• Методика, позволяющая в терминах линейного программирования сформулировать сколь угодно сложные условия на отбор заданий в тест и
• Комплекс программного обеспечения, позволяющий: обрабатывать результаты тестирования в рамках модели с частично верными ответами, пополнять и сопровождать базу данных тестовых заданий, конструировать тесты, отвечающие определенным, заранее сформулированным, требованиям.
Описанный комплекс программного обеспечения несколько лет успешно используется Федеральным центром тестирования при подготовке и обработке тестов централизованного тестирования и единого государственного экзамена.
Библиография Овчинников, Всеволод Валентинович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Айвазян С.А. Теория вероятностей и прикладная статистика. М.: ЮНИТИ-ДАНА. 2001. - 656 с.
2. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. -М.: Лаборатория Базовых Знаний. 2000. 624 с.
3. Березин Н.В., Овчинников В.В. База данных заданий централизованного тестирования. // Вопросы тестирования в образовании. 2001. -Ж. - с. 57-61.
4. Вентцель Е.С. Теория вероятностей. М.: Наука. 19G9. - 675 с.
5. Дейтел Х.М., Дейтел П.Дж. Как программировать на С++. М.: Бином. 2000. - 1024 с.
6. Калиткин H.H. Численные методы. М.: Наука. 1978. - 512 с.
7. Карданова Е.Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования. // Вопросы тестирования в образовании. 2004. - №10. - с. 7-34.
8. Карданова Е.Ю. Математические модели многофасетного анализа. // Вопросы тестирования в образовании. 2004. - №11. - с. 11-38.
9. Карданова Е.Ю., Нейман Ю.М. Основные модели современной теории тестирования. // Вопросы тестирования в образовании. 2003. - №7. -с. 12-37.
10. Карданова Е.Ю., Нейман Ю.М. Проблема выравнивания в современной теории тестирования. // Вопросы тестирования в образовании. -2003. №8. - с. 21-40.
11. Карданова Е.Ю., Нейман Ю.М. Как формально определить понятия 'уровень подготовленности испытуемого' и 'уровень трудности задания теста'. // Вопросы тестирования в образовании. 2004. - №12. - с. 7-17.
12. Кендалл М., Стыоарт А. Статистические выводы и связи. М.: Наука. 1973. - 900 с.
13. Ковалев М.М. Дискретная оптимизация. М.: Едиториал УРСС. 2003.- 192 с.
14. Крамер Г. Математические методы статистики. М.: МИР. 1975. - 648 с.
15. Лесин В.В., Лисовец Ю.П. Основы методов оптимизации. М.: Издательство МАИ. 1998. - 344 с.
16. Линник Ю.В. Метод наименьших квадратов и основы теории обработки наблюдений. М.: Наука. 1962. 650 с.
17. Маркин Н.С. Основы теории обработки результатов измерений. М.: Издательство стандартов. 1991. - 176 с.
18. Нейман Ю.М. Как измерить учебные достижения? // Вопросы тестирования в образовании. 2001. - №1. - с. 40-56.
19. Нейман Ю.М. О шкалировании результатов централизованного тестирования в 2001 году. // Вопросы тестирования в образовании. 2001.- Ж. с. 94-106.
20. Нейман Ю.М. Основные принципы шкалирования результатов ЕГЭ. // Вопросы тестирования в образовании. 2003. - №6. - с. 20-25.
21. Нейман Ю.М., Овчинников В.В. Оценки параметров уровня подготовленности тестируемых и трудности заданий в рамках двухпараметри-ческой модели. // Тезисы докладов второй всероссийской конференции "Развитие системы тестирования в России. 2000. с. 52-53
22. Нейман Ю.М., Овчинников В.В., Хлебников В.А., Характеристическая функция теста. // Вопросы тестирования в образовании. 2003. - №7. - с. 38-54.
23. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М.: Прометей, 2000. - 169 с.
24. Нейман Ю.М., Хлебников В.А. Задача тестирования в терминах классической теории оценивания параметров. // Вопросы тестирования в образовании. 2003. - №8. - с. 46-59.
25. Нейман Ю.М., Хлебников В.А. Как оценивается уровень подготовленности учащихся по результатам единого государственного экзамена. -М.: Шарк-пресс, 2003. 32 с.
26. Овчинников В.В. Оценивание учебных достижений учащихся при проведении централизованного тестирования. М.: Век книги, 2001. - 27 с.
27. Овчинников В.В. Оценка латентных параметров испытуемых. // Тезисы докладов всероссийской конференции "Анализ качества образования и тестирование. 2001. с. 215-223.
28. Овчинников В.В. Двухпараметрическая логистическая бинарная модель. // Тезисы докладов 56-й научно-технической конференции студентов, аспирантов и молодых ученых. 2001. - с. 41-43.
29. Овчинников B.B. Шкалирование результатов централизованного тестирования в 2001 году. // Тезисы докладов третьей всероссийской конференции "Развитие системы тестирования в России". 2001. - с. 106-108.
30. Овчинников В.В. Анализ внутренней валидности тестовых заданий аттестационного тестирования 2002 г. // Тезисы докладов четвертой всероссийской конференции "Развитие системы тестирования в России". 2002. - с. 90-91.
31. Овчинников В.В. О точности результатов ЕГЭ 2004 г. // Тезисы докладов шестой всероссийской конференции "Развитие системы тестирования в России". 2004. - с. 50-52.
32. Овчинников В.В. Математические модели тестирования при наличии заданий политомического типа. // Scientific Papers / Great Novgorod: NovSU. 2005.
33. Pao С.P. Линейные статистические методы и их применения. М.: Наука. 1968. - 548 с.
34. Хлебников В.А., Овчинников В.В. О точности измерения тестового балла. // Вопросы тестирования в образовании. 2002. - №4. - с. 53-62.
35. Яблонский C.B. Введение в дискретную математику. М.: Высшая школа. 2003. - 384 с.
36. Andrich D. Rasch models for measurement. London.: SAGE Publication. 1988. - 88 p.
37. Armstrong R.D., Jones D.H., Wu I.L. An automated test development .of parallel tests from a seed test. // Psychometrika. 1992. - №57. - p. 271-288.
38. Frank B. Baker, Item response theory: parameter estimation techniques. -New York.: Marcel Dekker. 1992. 496 p.
39. Bond T.G., Fox C.M. Applying the Rasch model. Fundamental measuremant in the human sciences. Lawrence Erlbaum Associates, Inc. 2001. - 255 p.
40. Crocker L., Algina J. Introduction to classical and modern test theory. -Orlando.: Harcourt Brace Jovanovich, Inc. 1986. 482 p.
41. Embretson S.E., Reise S.P. Item response theory for psychologistics. -Lawrence Erlbaum Associates, Publishers. 2000. 371 p.
42. Fisher G.H. On the existence and uniqueness of maximum-likelihood estimates in the Rasch model. // Psychometrika. 1981. - №46. - p. 59-77.
43. Fisher G.H. Applying the principles of specific objectivity and generalizability to the measurement of change. // Psychometrika. 1986.- №52. p. 565-587.
44. Huynh Huynh. On equivalence between a partial credit item and a set of independent Rasch binary items. // Psychometrika. 1994. - №59. - p. 111-119.
45. Huynh Huynh. Decomposition of a Rasch partial credit item into independent binary and indecomposable trinary items. // Psychometrika.- 1996. №61. - p. 31-39.
46. Irtel H. An extention of the concept of specific objectivity. // Psychometrika. 1995. - №60. - p. 115-118.
47. Luo G. The relationship between the Rating Scale and Partial Credit models and the implication of disordered thresholds of the Rasch modelsfor polytomous responses. // Journal of Applied Measurement. 2005. -№6(4). - p. 443-455.
48. Lord F.M., Novick M.R. Statistical theories of mental test scores. -MA.:Addison-Wesley. 1967. - 275 p.
49. Geoff N. Masters. A Rasch model for partial credit scoring. // Psychometrika. 1982. - №47. - p. 149-174.
50. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen: Danish Institute for Educational Research. 1960. - 32 p.
51. Rasch G. On specific objectivity: an attempt at formalizing the request for generality and validity of scientific statements. // Danish yearbook of philosophy. 1967. - №14. - p. 58-94.
52. Smith Jr. E.V. Evidence for the reliability of measures and validity of measure interpretation: a Rasch measurement perspective. // Journal of Applied Measurement. 2001. - №2(3). - p. 281-311.
53. Smith R.M. Rasch measurement models: Interpreting Winsteps/Bigsteps and Facets output. Maple Grove, Minnesota.: JAM Press. 1999. - 58 p.
54. Smith R.M. Applications of Rasch Measurement. Chicago.: MESA PRESS. 1992. - 2000 p.
55. Smith R.M. Fit analysis in latent trait measurement models. // Journal of Applied Measurement. 2000. - №1(2). - p. 231-244.
56. Theunissen, T.J.J.M. Binary programming and test design. // Psychometrika.- 1985. №50. - p. 411-420.
57. Theunissen, T.J.J.M. Some applications of optimization algorithms in test design and adaptive testing. // Applied Psychological Measurement. -1986. №10(4). - p. 381-389.
58. Verschoor A.J. IRT test assembly using genetic algorithms. -Arnhem.:CITO Technical Report OIS 8. 2004. 33 p.
59. Wolfe E.W. Equating and item banking with the Rasch model. // Journal of Applied Measurement. 2000. - №1(4). - p. 26-31.
60. Wright B.D. Solving Measurement Problems with the Rasch Model. // Journal of Educational Measurement. 1977. - №14(2). - p. 97-116.
61. Wright B.D., Masters G.N. Rating scale analysis. Chicago.: MESA PRESS. 1982. - 204 p.
62. Wright B.D., Mok M. Rasch model overview. // Journal of Applied Measurement. 2000. - №1(1). - p. 83-106.
63. Wright B.D., Stone M.H. Best Test Design. Chicago.: MESA PRESS. 1979. - 222 p.
-
Похожие работы
- Среда разработки алгоритмов адаптивного тестирования
- Математическая модель интерпретации результатов компьютерного тестирования с использованием марковских сетей
- Математическое и программное обеспечение оценки достоверности результатов массового тестирования
- Разработка и программная реализация методов анализа результатов массового тестирования
- Автоматизация процессов контроля качества профессионального обучения в системе переподготовки персонала предприятий
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность