автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка моделей и алгоритмов оценки качества тестовых материалов

кандидата технических наук
Попова, Елена Дмитриевна
город
Москва
год
2005
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка моделей и алгоритмов оценки качества тестовых материалов»

Автореферат диссертации по теме "Разработка моделей и алгоритмов оценки качества тестовых материалов"

Направахрукописи

ПОПОВА Елена Дмитриевна

РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ ОЦЕНКИ КАЧЕСТВА ТЕСТОВЫХ МАТЕРИАЛОВ

Специальность 05.13.17- Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2005

Работа выполнена в Московском государственном университете печати

Научный руководитель: доктор технических наук, профессор

Васильев Владимир Иванович

Официальные оппоненты: доктор физико-математических наук,

профессор

Козлов Анатолий Иванович

доктор техническихнаук, доцент Строганов Виктор Юрьевич

Ведущая организация:

/

Московский государственный университет экономики, статистики и информатики (МЭСИ)

час.

Защита состоится О июня 2005 г. в и I час. г у мин. на заседании диссертационного совета К 212.147.02 в Московском государственном университете печати по адресу: Москва, ул. Прянишникова, 2а.

С диссертацией можно ознакомиться в библиотеке МГУП.

Автореферат разослан мая 2005 г.

Ученый секретарь диссертационного совета К212.147.02,

доктор технических наук, профессор

В.НАеев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В соответствие с Концепцией модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ в 2002 году (Распоряжение Правительства РФ от 29 декабря 2001 г. № 1756-р, приказ МО РФ №393 от 11.02.02), «главная задача модернизации образования - обеспечение современного качества образования». Для этого предполагается создание необходимых условий для повышения уровня качества профессионального образования, которые соответствовали бы требованиям к специалистам, необходимым современному обществу. Таким образом, совершенствование качества образования рассматривается в Концепции модернизации Российского образования на период до 2010 года как приоритетная проблема. С другой стороны, в настоящее время существует задача оценки уровня качества образования в том или ином образовательном учреждении. Эти два направления тесно связаны между собой и в узком смысле могут быть сведены к проблеме объективной оценки уровня учебных достижений студентов высших учебных заведений России. Основными задачами здесь являются методы и методики, позволяющие оценить уровень овладения учащимися учебного материала[3], умение применять полученные знания для решения конкретных задач, способность синтезировать полученные знания, умения и навыки в процессе творчества и саморазвития. В значительной мере решение этих задач может быть получено с применением методов дидактического тестирования, которое выступает в качестве объективного инструмента оценки уровня учебных достижений. Однако при отсутствии высококачественных тестовых материалов нельзя говорить об объективности оценки качества полученных в образовательном процессе результатов. Поэтому задача обеспечения и повышения качества тестовых материалов, которая исследуется в данной диссертационной работе, является актуальной и направлена на оценку результатов обученности[10].

Не секрет, что отношение к науке тестологии у каждого индивидуума может быть кардинально различно. Многие осуждают применение тестов в научной и педагогической деятельности, но, не смотря на это, большинство высших учебных заведений России внедряют в процесс компьютерное тестирование. Анализ ситуации показывает, что резкое негативное отношение к тестам чаще всего складывается благодаря низкому качеству банков тестовых заданий, которые являются конгломератом психо-социо-педагогических мыслей составителя. Такие задания справедливо подвергаются резкой критике не только специалистами в предметной области, по которой составлен тест, но и специалистами других областей, которые видят явные ошибки и неточности в составлении самого тестового суждения.

Ученые, исследовавшие данную область на протяжении нескольких десятилетий, пришли к выводу, что наиболее верным решением выхода тестологии из кризисной ситуации неприятия является разработка и применение проектировщиками методологических правил при составлении тестов, проведение экспертизы и сертификации тестовых материалов, а также создание качественных методов обработки результатов тестирования.

Безусловно, переход на новые информационные технологии требует новых решений, доработки и дополнений в существующих теориях. Несмотря на достаточно большой имеющийся теоретический задел, до настоящего времени не было предложено однозначной и обоснованной методики проведения процедуры экспертизы качества тестовых материалов. Поэтому одной из задач данной работы является построение единой методики и технологии для экспертизы тестовых материалов, в которых должны быть предложены подходы к механизмам проведения экспертизы и автоматизации процесса оценки каждого задания из представленного банка. Кроме того, в диссертационной работе рассматривается методика составления качественного тестового суждения[2], которая интегрирует предложенные ранее способы по повышению качества теста, а также учитывает новые разработки данной диссертации, которые не были исследованы ранее.

Целью данной диссертационной работы является разработка моделей и алгоритмов оценки качества тестовых материалов на основе элементов классической и современной теории тестов, методов математической статистики и статистики качеств.

Задачи исследования. В соответствии с поставленной целью требуется решить следующие задачи:

• провести анализ существующих методов оценки качества банков тестовых заданий и методов обработки мнений экспертов;

• разработать модели вычисления характеристик тестовых заданий и банков тестовых материалов;

• создать методику и технологию разработки качественных тестовых материалов;

• разработать технологию сертификации качества тестовых материалов;

• решить практические задачи по проектированию алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов.

Объектом исследования является область теоретической информатики, обеспечивающая решение актуальной задачи оценки качества объектов произвольной природы, связанная с разработкой моделей и алгоритмов анализа данных, методов взаимодействия информационных

процессов и обеспечения информационных потребностей коллективных и индивидуальных пользователей.

Методы исследования. Для достижения поставленной в работе цели и решения перечисленных задач использованы методы классической и современной теории тестов, математической статистики, статистики качеств, элементы квалиметрии. Разработка программ для реализации алгоритмов проведена на языках программирования VBScript, JavaScript по технологии ASP, моделирование проводилось на языке Visual C++.

Методологической основой исследования являются работы в области теории тестирования, посвященные общим закономерностям разработки тестовых материалов и обработки результатов тестирования (труды А.Анастази, В.С.Аванесова, М.Б.Челышковой, В.И.Васильева, В.П.Беспалько и др.), а также работы по принципам экспертного анализа, квалиметрии и статистической обработки данных (труды Г.Г.Азгальдова, В.С.Черепанова, Б.Г.Литвака, Р.Джессена, В.Ю.Переверзева и др.), в том числе работы по статистике объектов нечисловой природы (В.В.Красильников и др.).

Достоверность полученных результатов подтверждается использованием математических методов теории тестов, математической статистики и статистики качеств, а также практической реализацией и внедрением разработанных методов и алгоритмов.

Научная новизна полученных в данной работе результатов состоит в следующем:

1. Разработаны модели расчета объема случайной выборочной совокупности тестовых заданий при экспертизе и студентов при тестировании, позволяющие осуществлять прогнозирование наличия некачественных заданий в банке тестовых материалов и результаты тестирования студентов в генеральной совокупности с допустимым уровнем верности.

2. Впервые предложена модель расчета коэффициента множественной конкордации мнений экспертов при оценке качества тестовых заданий по множеству многомерных факторов на основе теории статистики качеств и разработаны соответствующие этой модели алгоритмы обработки совокупного мнения экспертов.

3. Разработана новая модель для расчета количественных характеристик банков тестовых заданий в условиях различной степени агрессивности субъектов тестирования, позволяющая прогнозировать узнаваемость банков тестовых материалов.

4. Предложены новые методика создания качественных тестовых материалов и технология их сертификации.

5. Впервые предложена классификация этапов эволюции сознания восприятия науки тестологии индивидуумом.

Оценка теоретической значимости результатов работы.

Полученные модели и алгоритмы являются теоретической основой создания автоматизированной системы экспертизы и сертификации тестовых материалов для повышения качества банков тестовых заданий. Технология, нормативные документы и методики по сертификации тестовых материалов применяются для оценки качества банков тестовых заданий, используемых при итоговой аттестации студентов высших учебных заведений.

Практическая ценность работы. На основании предложенных моделей и алгоритмов создана автоматизированная программа "АСТ-Эксперт" (свидетельство об официальной регистрации программ для ЭВМ №2004612525 от 15.11.2004. М.:Федеральная служба по интеллектуальной собственности, патентам и товарным знакам), что позволило автоматизировать процесс оценки качества тестовых материалов с использованием Интернет-технологий. Предложенные методики легли в основу технологии проведения сертификации тестовых материалов Органом сертификации (аттестат аккредитации № РОСС RU.0001.11Cn 13 от 17.12.03) и испытательной лаборатории (аттестат аккредитации № РОСС RU.0001.21CП35 от 23.09.03).

На защиту выносятся следующие положения:

• модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов и расчета объема выборочной совокупности студентов при тестировании;

• модель и алгоритм обработки совокупного мнения экспертов на основе теории статистики качеств;

• модель для расчета количественных характеристик банков тестовых заданий в условиях различной степени агрессивной среды;

• классификация этапов эволюции сознания восприятия науки тестологии индивидуумом;

• технология и алгоритмы проведения сертификации и экспертизы тестовых материалов.

Внедрение результатов. Нормативные документы по сертификации тестовых материалов для итоговой аттестации студентов применяются Федеральной службой по надзору в сфере образования и науки для экспертизы тестовых материалов[12]. Модели и алгоритмы оценки качества тестовых материалов внедрены в Московском государственном университете печати и в АНО "Центр образовательных коммуникаций и тестирования профессионального образования". Результаты работы также использованы при выполнении государственного контракта НИР № 1070 (2003-2004гг.).

Апробация результатов работы. Основные результаты диссертационной работы обсуждены на Всероссийских конференциях "Развитие методов и средств компьютерного тестирования", Москва, 2004; "Развитие методов и средств компьютерного тестирования", Москва, 2005.

Модели и алгоритмы, полученные автором данной работы, использовались в процессе подготовки экспертов по оценке качества банков тестовых материалов, используемых при аттестации высших учебных заведений.

Публикации. Основные положения диссертации изложены в 14 научных публикациях. Программное обеспечение официально зарегистрировано в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем диссертации. Диссертационная работа состоит из введения, 4-х глав, выводов по каждой главе, основных результатов, списка использованной литературы и приложений. Диссертация изложена на 172 страницах, содержит 18 рисунков, 6 таблиц, 19 приложений. Список используемой литературы содержит 133 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цели и задачи диссертационного исследования, приведены положения, выносимые на защиту, обсуждены научная новизна и практическая значимость работы.

В первой главе проводится анализ научных школ, современных методов оценивания качества, обосновывается необходимость доработки этих методов при оценке качества банков тестовых материалов для целей аттестационного контроля, приводятся существующие зарубежные стандарты представления тестовых материалов.

Развитие классической и современной теории тестов тесно связано с применением тестов в педагогике. Еще в 20-х годах прошлого столетия ВАМакколл ввел разделение тестов на педагогические и психологические. Так появилось еще одно направление - педагогическая тестология. Педагогическая тестология, согласно концепции В.С.Аванесова, призвана заниматься вопросами разработки тестов для объективного контроля знаний, умений, навыков, представлений учащихся. Анализ результатов исследований зарубежных (А.Анастази, Р.Берк, Д.Вялфорд, Гласе Дж., Стэнли Дж., Джеймса Маккина Кэттела) и отечественных (В.С.Аванесов, В.П.Беспалько, В.И.Васильев, Ю.М.Нейман, В.И.Огорелков, В.Ю.Переверзев, ВАХлебников, В.С.Черепанов, М.Б.Челышкова и др.) ученых показал, что педагогические тесты являются одним из наиболее мощных, надежных и объективных методов определения учебных успехов (достижений) студентов.

В главе рассматривается математическая модель качества как некоторая абстрактная система отдельных свойств, имеющих разную степень сложности. Эта модель качества, в силу своего абстрактного характера, в принципиальном отношении будет совершенно одинаковой для различных объектов как технических, так и социальных, психологических,

политических и др. Подстановка в эту модель значений конкретных показателей свойств качества характерна для того или иного конкретного объекта позволяет перейти от общей абстрактной модели качества к определенной модели качества реально существующего объекта. Этим занимается педагогическая квалиметрия. В педагогической квалиметрии рассматриваются как общие проблемы измерений в педагогике и дидактике, так и конкретные задачи, связанные с измерениями в педагогических исследованиях, такие, например, как разработка параметров измерения знаний учащихся педагогическая экспертиза, оценка сложности учебного текста. Многие вопросы по квалиметрии рассмотрены в трудах отечественных ученых И.Б.Ительсона, Б.П.Битинаса, Л.М.Фридмана, С.И.Архангельского, Н.М.Розенберга, А.М.Сохора, М.И.Грабаря, П.Н.Воловика, В.И.Огорелкова, В.С.Черепанова, В.П.Беспалько и других исследователей. Среди зарубежных ученых, внесших вклад в становление педагогической квалиметрии, следует в первую очередь отметить работы А.А.Анастази, РАткинсона, Р. Буша, Дж. Гласа, Дж.Стенли и др.

Теоретической базой для педагогической квалиметрии являются в основном методы экспертных оценок. Эти методы в настоящее время достаточно разработаны и опубликованы в трудах Г.Г.Азгальдова, С.Д.Бешелева, Ф.Г.Гурвич, Н.Н.Китаева, Б.Г.Миркина, Д.С.Шмерлинга и др. Кроме того, в педагогической квалиметрии используются методы социологических исследований (анкетирование) и программно-дидактических исследований (тестирование).

Обоснованию экспертных методов посвящено значительное число работ. В диссертации делается обзор основных и важнейших из них. Экспертные методы используют эвристические возможности человека, позволяя на основе знания опыта, и интуиции специалистов, работающих в данной области, получить оценку исследуемых явлений. Эксперт является как бы датчиком исходной количественной информации и используется в тех случаях, когда отсутствуют другие способы ее получения. Н.Н. Китаев в своей работе писал "Экспертные методы не являются формальными в строгом смысле слова. Здесь остается широкое поле для творческой импровизации, например, при составлении анкет, где опыт и интуиция преобладают над алгоритмической ясностью. Результаты работы экспертной группы неизбежно будут содержать отпечаток субъективизма, вносимого как самими экспертами, так и организаторами экспертного опроса. Это является неизбежной платой за возможность получить количественные оценки там, где раньше ограничивались лишь качественным описанием".

В первой главе проводится анализ следующих экспертных методов:

• экспертный метод оценки управляемости объекта;

• метод взаимных рекомендаций;

• модели неметрического многомерного шкалирования;

• цилиндрическая модель;

• обобщенная модель объединенного пространства.

По результатам проведенного анализа в первой главе сделаны следующие выводы[7]. Рассмотренные модели неметрического многомерного шкалирования и методы позволяют обрабатывать экспертные мнения на основе математической статистики. В основе этих методов предполагается соответствие данных требованиям закона нормального распределения. Однако многие исследователи все чаще приходят к выводу о том, что на практике такие распределения встречаются крайне редко и в этом случае приходится использовать методы непараметрической статистики для анализа ранговых данных и выборок малого объема. Некоторые из рассмотренных моделей сформулированы таким образом, что не позволяют в силу своей общности построить адекватные им вычислительные процедуры. Рассмотренные методы, как правило, применяются для проведения экспертизы в несколько этапов. Именно в этом заключается основной их недостаток при использовании экспертизы тестовых материалов - объем банков тестовых заданий (БТЗ) настолько велик, что проведение такой экспертизы значительно увеличивает время получения результатов экспертизы, и как следствие, значительно увеличивается стоимость экспертизы.

Вторая глава содержит разработку математических моделей расчета количественных характеристик тестовых заданий (ТЗ) и банков. Разработаны методики прогнозирования результатов экспертизы по случайной выборке ТЗ и результатов тестирования по случайной выборке испытуемых. Рассмотрена методика расчета критериального балла и надежности тестов.

Из числа наиболее важных характеристик тестов и тестовых материалов в диссертационной работе выделены следующие (Табл.1):

Для того чтобы оценить качество БТЗ в целом, необходимо провести экспертизу всех тестовых суждений. Для аттестационной проверки остаточных знаний студентов разрабатываются БТЗ, содержащие большое количество заданий. Просмотреть огромные массивы информации в пределах одного банка достаточно сложно по причинам различного характера. Это в первую очередь может быть технически невозможно, во-вторых, экономически неэффективно, в-третьих, такая процедура может занять довольно длительное время. Возникает задача оптимизации проверки целого банка. Наиболее эффективным способом такой оптимизации может быть простой выборочный метод. В этом случае необходимо проанализировать случайную выборку заданий из банка, и если выборка содержит большое количество не корректных ТЗ, то весь банк возвращается на доработку без анализа оставшихся ТЗ. Такой подход позволяет

значительно экономить время проведения экспертизы банков тестовых заданий.

Задача, таким образом, сводится к расчету ошибки выборочной доли й.

_Таблииа 1. Основные характеристики тестовых материалов

Эта ошибка при собственно-случайном отборе находится следующим образом [1]:

Чтобы достичь заданной точности измерений, на основе формулы (1) легко получить уравнение для расчета необходимого объема выборки при оценке доли. В этом случае

Аналогичным способом ставится задача на прогнозирование доли неуспевающих студентов. Пусть имеется генеральная совокупность студентов количеством N человек. Предположим, что тестирование проводилось на подмножестве из п < N студентов, при этом неудовлетворительный результат получили w<n<N студентов. Необходимо спрогнозировать какое количество студентов получит неудовлетворительный результат, если будут тестироваться все N студентов[5].

В диссертационной работе разрабатываются таблицы для расчета задач по этим формулам и приводятся примеры их использования. Все расчетные таблицы вынесены в приложение к диссертации.

Далее, в главе предложена модель расчета количественных характеристик банка тестовых материалов, в различных условиях агрессивности среды. Суть проблемы заключается в следующем.

При проведении процедуры аттестационного тестирования специалисты-технологи часто сталкиваются с попытками вскрытия банков тестовых материалов (БТМ). Задача повышения конфиденциальности БТМ является достаточно важной и может решаться различными методами теории защиты информации. Однако, несмотря на то, что количество заданий в БТМ для аттестации высших учебных заведений достаточно велико, никаким образом нельзя защитить БТМ от копирования и запоминания тестовых материалов, которые появляются в процессе тестовых проверок. Другими словами, часто наблюдается картина, когда тестируемые "копируют" тестовые задания с экрана, и затем, обмениваются ими.

Таким образом, тестовое задание становится доступным и повышается вероятность правильного вывода на тестовое суждение с известной долей необъективности. Использование таких "шпаргалок" при тестировании полностью дискредитирует саму идею тестирования и соответственно завышает реальный результат степени обученности испытуемых. В связи с этим возникает задача[11], в которой нужно подсчитать оптимальное

(1)

л =

Лгг„2и<1-1У) .

(2)

количество сеансов (при заданных параметрах), которое необходимо пройти, чтобы полностью был известен весь БТМ (рис.1). С другой стороны, интересно было бы знать рекомендуемые объемы банков тестовых заданий (ТЗ) при известных условиях эксплуатации БТМ, а так же рассчитать рекомендуемую длину теста с учетом его многократного использования.

Рис 1 Покрытие БТМ сеансами тестирования

Для решения поставленных задач необходимо ввести следующие параметры.

Пусть N - объем банка тестовых заданий, L - фиксированная длина одного теста (количество ТЗ в тесте), М - количество проведенных сеансов тестирования. Введем также некоторый коэффициент к, принимающий значения в диапазоне от 0 до 1 и назовем его коэффициентом "агрессивности среды". Под агрессивной средой будем понимать такой контингент тестируемых, которые стремятся полностью обменяться всеми известными им тестовыми заданиями (сразу можно оговорить, что полностью известный банк тестовых заданий, не гарантирует 100%-но правильные выводы на известные тестовые суждения). В этом случае коэффициент агрессивности будем считать равным 1 (т.е. процент узнавания теста максимально велик). Если же, взять пример, при котором испытуемыми "копируется" и распространяется только половина из предъявляемых тестовых суждений, то коэффициент к будет равен 0,5. Теперь необходимо найти вероятность/? того, что все задания будут известны и скопированы. Эту вероятность можно будет интерпретировать как долю тех ТЗ из банка, которые будут известны тестируемым после проведения М сеансов тестирования.

Коэффициент к может быть использован следующим образом. Рассмотрим ситуацию, при которой сеанс тестирования проводится в "агрессивной среде", т.е. к=1. Тогда, в пределах одного сеанса - все Ь ТЗ из банка становятся известными. Если то с учетом физического смысла коэффициента к доступными окажутся ^ тестовых заданий, другими словами, та же ситуация возникает, когда запоминаются все задания при длине теста ^. Таким образом, коэффициент к может быть использован для

корректировки длины теста L, ив дальнейших формулах мы будем использовать скорректированное значение длины теста равное кЬ.

Предположим, в процессе тестирования выбирается случайным образом из банка тестовые задания. Вероятность того, что некоторое тестовое задание не будет выбрано, в течение одного сеанса равна:

И-кЬ

Такая же вероятность р —

Ы-кЬ

будет и при втором сеансе

N N

тестирования и при M-ом сеансе тестирования.

Поскольку каждый сеанс тестирования - независимое событие, то общую вероятность р0 того, что некоторое задание не будет выбрано после

М

сеансов тестирования, вероятностей . Таким

можно вычислить

перемножения

о б р Ро

искомая

путем

. Тогда

N

вероятность р будет вычисляться по формуле:

Из полученного выражения (3) можно найти М - количество сеансов, которое необходимо, чтобы было известно />Жтестовых заданий в банке:

1оё(1 - р) ^ \0gd-p) . (4)

N

Аналогично, из выражения (3) можно найти минимальную длину теста, при заданных значениях М,И,к,р:

И, наконец, из (5) при известных M,L,k,p можно определить рекомендуемый размер БТМ:

В диссертации приводятся расчетные таблицы и графики, проводится моделирование описанной ситуации. В результате сравнения полученных значений и моделирования делается заключение, что полученные формулы можно использовать при расчете числовых характеристик БТМ.

В третьей главе предлагается классификация сознания восприятия науки тестологии; разрабатывается методика создания качественных тестовых материалов с учетом различных факторов произвольной природы; показывается, что правильное определение меры трудности тестовых заданий влияет на качество тестовых материалов; впервые выводится формула множественной конкордации по множеству факторов разной размерности; разрабатывается алгоритм кластерного анализа результатов

экспертизы, а также осуществляется разработка технологии сертификации качества тестовых материалов.

В настоящее время тестология стала достаточно интенсивно развиваться как научное направление. Первые упоминания о тестологии как о науке появились еще в начале XX века. С тех пор тестология прошла через различные этапы своего развития, начиная от полного неприятия, заканчивая догматическим применением тестов везде и всюду. Характерно и то, что при знакомстве с этой наукой каждый индивидуум проходит примерно через те же самые стадии восприятия этой науки и ее приложений. Следовательно, на сегодняшний день можно исследовать эволюцию сознания восприятия тестологии индивидуумом, использующим ее в своих целях. В диссертации впервые приводится классификация процессов изменения восприятия человеком тестологии как науки[8]. В частности, эволюцию восприятия индивидуумом теории тестов можно разделить на четыре основных этапа:

• тестологический примитивизм;

• тестологический агностицизм;

• гносеологический подход к восприятию тестологии;

• догматизм в тестологии.

Генезис сознания охватывают все четыре перечисленных этапа, если индивидуум пытается глубинно постичь тестологию. Как правило, переход в стадию тестологического догматизма обуславливается частичным непониманием аспектов этой науки, возможно полузнанием о ней. Оптимальным восприятием можно считать гносеологический подход к восприятию тестологии, который учитывает все сильные стороны этой науки и гармонично сочетает ее с другими педагогическими доктринами обучения и проверки уровня учебных достижений[6].

Далее в диссертации обосновываются и определяются факторы показателей качества тестовых материалов и их возможные значения:

1. Требование к краткости формулировки. Задание должно быть сформулировано кратко, его максимальная физическая длина не может превышать 250 символов (12 слов или словосочетаний). Должно соблюдаться правило - лучше длинная формулировка, чем длинные заключения, а не наоборот, повторяющиеся фразы в заключениях переносятся в тестовое суждение. Возможные качественные значения: недопустимая (полное несоотвествие), превышенная (очень длинные заключения), допустимая (физическая длина формулировки больше принятой), оптимальная (полное соответствие).

2. Задание формируется в форме повествовательного предложения, не может содержать никаких форм отрицаний, не может быть представлено в форме вопроса, задачи, загадки, пословицы, поговорки: недопустимая (полное несоответствие), слабая (задание в виде вопроса, задачи), допустимая (наличие отрицания), оптимальная (полное соответствие).

3. Следует избегать обобщающих слов: «всегда», «никогда», «иногда», «все» и т.д, желательно начинать тестовое задание с определяющего символа, а не с предлога, союза или частицы, исключаются неоднозначные слова: «когда-нибудь», «или», «либо», «ли», и т.д.: лишние слова присутствуют, отсутствие лишних слов.

4. Должно быть предусмотрено достаточное количество вариантов заключений (в закрытой форме - 4-6, последовательность 4-8, соответствие - 3-5, открытой форме должны быть предусмотрены все возможные образцы выводов): вариантов слишком мало, вариантов слишком много, оптимальное количество вариантов.

5. Соответствие ТЗ содержанию ГОС или учебной программе: не соответствует, слабо соответствует, соответствует.

6. Уровень значимости содержания ТЗ: сомнительный, приемлемый (допустимый), важный, самый важный - (существенный).

7. Максимально-допустимое время предъявления задания на экране дисплея, в минутах: более 2х минут, 2 минуты и менее.

8. Однозначность ТЗ: не однозначно, слабо однозначно, однозначно.

9. Свернутость ТЗ: низкая, средняя, высокая. Этот фактор показывает насколько наглядно, компактно сформулировано ТЗ, и насколько оно приведено к форме, облегчающей тестируемому целостное восприятие содержания тестового суждения.

10. Ясность смысла тестовой ситуации: не ясно, ясно.

В работах В.В.Красильникова и В.И.Васильева приводится подход к оценке качества тестовых утверждений, основанный на методах непараметрической статистики. Данный подход обладает некоторыми неудобствами реализации рассматриваемых методов на вычислительной технике. В частности, для реализации экспертной оценки с использованием Интернет необходимо несколько упростить применяемые решения и оптимизировать их с целью сокращения вычислений. В диссертационной работе предлагается подход, развивающий указанные методы, позволяющий производить возможные расчеты с использованием матричных данных, удобных для реализации на ЭВМ.

Пусть дана матрица |с| оценок экспертов на тестовые задания.

Каждое значение элемента матрицы указывает любую качественную оценку /-го задания (например, меру трудности), данную ]-м экспертом, причем - номера тестовых заданий, - номера экспертов,

1 <с0<к , где к - максимально возможная оценка меры сложности тестового

задания. На основании матрицы ||С|| необходимо построить квадратную

матрицу

размерностью т X т, где каждый элемент матрицы 0 < и^, <, 1

указывает степень сходства оценок тестовых заданий эксперта х и эксперта у.

Пусть два эксперта дали оценку п тестовым заданиям по одной шкале с к признаками, тогда расхождение их мнений можно рассматривать как сумму попарных разностей расхождений для каждого тестового задания. Очевидно, что максимальное расхождение мнений будет достигнуто, если по всем ТЗ один эксперт указал качественное значение 1, а второй указал значение к. Тогда расстояние между мнениями экспертов будет максимальным и равно к-1. Общее количество таких расстояний будет равно числу ТЗ. Тогда общее максимальное расхождение получится равным п(к-1). В этом случае формула расчета согласованности мнений экспертов на основе метрики Манхэттенского расстояния будет такой:

(7)

и(*-1)

Теперь можно расширить эту формулу, предполагая, что два эксперта дают оценку по Ь факторам. В этом случае нужно просуммировать их расхождения по каждому фактору. Пусть - значение установленное

экспертом х для фактора у тестового задания г; ^ - количество качественных уровней для факторау, тогда

Далее, пусть имеется т экспертов, оценивающих п ТЗ, по Ь факторам, каждый из факторов имеет качественную градацию из к уровней. Рассчитаем общий коэффициент согласованности мнений экспертов ц>. В этом случае можно составить квадратную матрицу т т попарной согласованности экспертов, каждый элемент которой вычисляется по (8) и является значением от 0 до 1. Заметим, что матрица симметричная и элементы главной диагонали равны 1. Для вычисления общего коэффициента согласованности w нам необходимо найти среднее значение матрицы, для этого нужно просуммировать матрицу и разделить на количество элементов в ней:

Учитывая, что матрица ЦргЦ симметричная и диагональные элементы равны 1, можно просуммировать только те элементы, которые находятся

выше главной диагонали. Количество таких элементов в матрице, как известно, равно (щ2 -т)12 = т{т-\)12- Тогда формула (9) примет вид:

Подставляя (8) в (10) получим итоговую формулу для вычисления коэффициента согласованности:

Таким образом, мы получили коэффициент согласованности мнений экспертов для множества факторов, оцениваемых по различным шкалам:

В частном случае, при оценке экспертами всего одного фактора (т.е. L= 1)получим (V/ = 1,L)kj =к = const:

На следующем этапе получения обобщенной экспертной оценки качества тестового задания, необходимо на основе матрицы выделить

кластеры экспертов, взаимная степень согласованности которых не меньше определенного порога. В этом случае могут применяться различные алгоритмы кластерного анализа. Рассмотрим разработку одной из возможных

реализаций алгоритма на основе иерархического кластерного анализа, который можно использовать для небольших размеров матрицы ЦИ^Ц

Исходными данными для его работы являются массив с номерами экспертов (размерностью М, где М - число экспертов), матрица попарной согласованности мнений экспертов (размерность МкМ) и порог оценки согласованности 0<Р<1.

Суть алгоритма (рис.2) в том, что:

1. На первом шаге рассматривается М кластеров, каждый элемент массива номеров экспертов считается отдельным кластером и в своем кластере объявляется центральным.

2. Далее последовательно рассматривается каждый полученный кластер.

3. Для всех элементов, за исключением центрального в рассматриваемом кластере, из матрицы попарной согласованности мнений экспертов выбирается величина рассматриваемого элемента согласованности и элемента, центрального в кластере.

4. Если эта величина превышает или равна заданному порогу Р, то при наличии в кластере только центрального элемента, рассматриваемый элемент заносится в кластер.

5. Если же в кластере помимо центрального находятся еще элементы, то рассматриваемый элемент сравнивается со всеми остальными элементами в этом кластере.

6. Если оценка согласованности каждого элемента кластера с рассматриваемым превышает или равна заданному порогу, то рассматриваемый элемент помещается в кластер.

7. Выбирается кластер с наибольшим числом элементов и максимальным коэффициентом конкордации, вычисленным по формуле (11).

На основании мнения экспертов, входящих в найденный кластер, вычисляется общая оценка качества рассматриваемых тестовых заданий. Для этого вычисляется среднее значение их оценок по каждому заданию теста.

Предложенные модели и алгоритмы достаточно легко реализуются на ЭВМ, и на их основе был разработан модуль экспертной оценки тестов и тестовых заданий с использованием Интернет АСТ-Эксперт[14].

В последнем разделе третьей главы диссертации обосновывается необходимость сертификации качества тестовых материалов. В частности отмечается, что сертификация направлена на[12]:

1.Повышение качества программно-дидактических тестовых материалов (ПДТМ).

2.Повышение надежности тестов и уменьшение погрешности тестовых измерений.

3.Подтверждение соответствия тестовых материалов методологическим требованиям.

4.Стандартизация и каталогизация банков тестовых материалов.

Составление матрицы попарной согласованности №н|

I

Задание порога согласованности Р

I

Выделение для каждого эксперта отдельного кластера (1-й эксперт является центральным в 1-м _кластере, <«12 М)_

Т

1.К1вчисло экспертов а 1-м кластере

Заносим эксперта • _кластер_

Запомнить 1-й кластер, как кластер, содержащий максимальное число элементов

|

Окончание ^^^ ■ ■ —....—

Рис.2Алгоритм кластерного анализарезультатовэкспертизы

Процесс сертификации достаточно трудоемок, поэтому в диссертации предлагается технология организации мероприятий сертификации. Среди таких мероприятий можно выделить следующие этапы (рис.3):

• регистрация, проверка документов, оформление договоров;

• предварительная экспертиза ПДТМ;

• подбор экспертов, оформление договоров с экспертами;

• экспертиза содержания ПДТМ, работа экспертов;

• апробация тестов в учебных группах;

• расчет характеристик теста;

• подготовка сертификата.

Рис3Этапы сертификациитестовыхматериалов

На этапе предварительной экспертизы проводятся:

¡.Экспертиза спецификации ПДТМ и ее соответствия ГОС или учебной программе.

2.Синтаксический анализ банка тестовых заданий (БТЗ).

3.Предварительная экспертиза содержания, правильности форм представления тестовых заданий.

4.Выявление фактов нарушения «Требований к программно-дидактическим тестовым материалам».

На этапе проведения экспертизы и привлечения экспертов-предметников используется бланки для экспертов (Приложение 9 диссертации). Результаты экспертизы по валидности[13] оформляются в виде двух документов: «Протокол экспертизы валидности БТЗ» (Приложение 10) и «Лист замечаний по валидности БТЗ» (Приложение 11). Процесс экспертизы может быть автоматизирован через Интернет, чему посвящена следующая глава диссертационной работы.

Четвертая глава включает разработку алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов, разработку подходов к поддержке стандарта представления тестовых материалов в соответствии со спецификацией IMS QTI.

В качестве основных функций системы анализа формы представления тестовых заданий в работе предлагаются следующие[9]:

• лексический анализ содержания ТЗ и ответов, который включает следующие возможности:

о анализ лексем;

о проверка наличия рисунков и других объектов; о проверка длины ТЗ и ответов; о проверка количества ответов;

• сбор статистики о прохождении тестов, в которую входит: о предъявление статистики и информации об ошибках; о статистику о прохождении тестов;

о статистику о предъявлении ТЗ; о распределение оценок по тестам; о распределение оценок по ТЗ.

Определим технологические требования к лексической форме тестовых заданий [4], которые основаны на методологических правилах композиции ТЗ, разработанных в третьей главе диссертации:

• выявление слов и лексических единиц, указывающих на вопросительный характер предложения (какой, что, где, сколько,?...), наличие сложноподчиненных структур (так как, такой, чтобы, ...), наличие слов способствующих неоднозначному восприятию вопроса (какой-нибудь, кое-где, что-то), наличие слов, запрещенных для использования в ТЗ и ответах (нет, не, никогда, или, может быть, возможно и т.п.);

• выявление слов и словарных форм, характерных при построении альтернативных вопросов (или, либо, ли и др.);

• выявление слов, указывающих на возможную необходимость наличия в формулировке ТЗ и ответов поясняющих рисунков или других объектов (рисун, рисов, рис., табл и т.п.) и проверка наличия таковых в БТМ;

• определение длины тестового задания, включая ответы.

Лексический анализ, применяемый в данной системе можно разбить

на 4 независимые части, каждая из которой проверяет:

1. Длину ТЗ, ответов и количество ответов.

2.Формулировку ТЗ и ответов на наличие слов различных категорий.

3. Лексические единицы, не подпадающие под определенные категории.

4.Наличие ссылок на рисунок или таблицу, и при необходимости проверка наличия требуемых объектов в БТМ.

Предложенные подходы и алгоритмы достаточно легко реализуются на ЭВМ, и на их основе была разработана система экспертной оценки тестов и тестовых заданий с использованием Интернет - АСТ-Эксперт[14]. В общем, система разделена на две части: закрытая часть - администрирование системы (рис. 4-А) и открытая часть для авторизованных пользователей -подсистема проведения экспертизы (рис. 4-В).

Рис 4 Структура системы АСТ-Эксперт, подсистемы А - администрирование; В - проведение экспертизы

В заключении сформулированы основные результаты, полученные в диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ И ВЫВОДЫ

В процессе выполнения диссертационной работы была решена важнейшая научная задача по созданию моделей и алгоритмов оценки качества тестовых материалов на основе теории тестов, методов квалиметрии, математической статистики и статистики качеств.

На основании полученных результатов можно сделать следующие выводы:

1. Проведенный анализ существующих методов оценки качества банков тестовых заданий и методов обработки мнений экспертов позволил выявить их недостатки, обозначить существующие проблемы и возможные пути их решения.

2. Разработанные новые модели расчета характеристик тестовых заданий и банков тестовых материалов позволяют при различных уровнях агрессивности субъектов тестирования прогнозировать время обновления банков тестовых материалов, а также при заданных параметрах производить расчет рекомендуемых объема банков тестовых материалов и длины теста, что повышает качество банков тестовых материалов.

3. Созданные методика и технология разработки качественных тестовых материалов позволяют учитывать множество факторов нечисловой природы при проектировании и последующей экспертизе тестовых материалов. Полученные разработки позволяют на различных этапах создания тестовых материалов оценивать и контролировать их качество.

4. Разработанная технология сертификации качества тестовых материалов с использованием Интернет позволяет сократить время проведения экспертизы тестовых материалов и уменьшить по экономическим параметрам стоимость проведения экспертизы в 3-7 раз.

5. Решены практические задачи по проектированию алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов, автоматизирующие основные этапы работ при проведении сертификации тестовых материалов. Это позволило сократить сроки проведения экспертизы и сертификации тестовых материалов.

6. Результаты работы внедрены в на уровне Федеральной службы по надзору в сфере образования и науки, а также в пяти образовательных учреждениях.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Попова Е.Д. Методика определения размера выборки при экспертизе программно-дидактических тестовых материалов //Мир человека:научн.-информационное изд.-Красноярск:Изд-во СибГТУ,

2003. Вып.4. - с.46-50. (0,31 п.л.).

2. Попова Е.Д. Оценка качества тестовых суждений: Сб. мат.: 3-я 'Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005.-С.172-178. (0,44 п.л.).

3. Попова Е.Д. Оценка уровня учебных достижений //Известия высших учебных заведений. Проблемы полиграфии и издательского дела №2'2005, М.: 2005. - с.80-83. (0,25 п.л.).

4. Попова Е.Д. Разработка спецификаций для автоматизации синтаксической экспертизы содержания банка тестовых заданий: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва,

2004.-С.90-91. (0,13 п.л.).

5. Попова Е.Д. Расчет объема выборочной совокупности при тестировании //Перспективные информационные технологии и интеллектуальные системы (ПИТИС). №4(20) 2004г, Таганрог: Изд-во ТРТУ. - с.84-87, http://pitis.tsure.ru //files20 //p 15.pdf. (0,25 п.л.).

6. Попова Е.Д. Социальный подход в тестологии : Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва,

2005.-с. 168-169. (0,13 п.л.).

7. Попова Е.Д. Способ отбора экспертов при сертификации тестовых материалов: Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005.- с.170-171. (0,13 п.л.).

8. Попова Е.Д., Попов Д.И. Эволюция сознания восприятия тестологии: Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005. - с. 178-182. (0,31/0,2 п.л.).

9. Узденов Д.М., Попова Е.Д., Автоматизация экспертной оценки качества тестовых заданий: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2004. - с. 109-113. (0,25/0,13 п.л.).

10. Попова Е.Д., Этезов Б.Б., Алексеенко А.А., Сапарова А.Т. Анализ оценки качества системы образования: Сб. мат.: 2-я Всеросс.науч.-

метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2004. - с. 135-136.

(0,13/0,03 пл.).

11. Попов Д.И., Попова Е.Д. Количественные характеристики банков тестовых заданий //Перспективные информационные технологии и интеллектуальные системы (ПИТИС). №1(21) 2005г, Таганрог: Изд-во ТРТУ. - с.89-92. (0,25/0,2 п.л.).

12. Попов Д.И., Попова Е.Д. Нормативные документы по сертификации тестовых материалов для итоговой аттестации студентов //Утверждены 15.02.04 заместителем руководителя департамента лицензирования, аккредитации и аттестации Минобразования РФ, с.42. (2,5/1,25 пл.).

13. Попов Д.И., Попова Е.Д. Подходы к оценке валидности теста при экспертизе банков тестовых заданий: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2004. - с.92-95.

(0,31/0,2 п.л.).

14. Попов Д.И., Тягунова Т.Н. Попова Е.Д. АСТ-Эксперт // Свидетельство об официальной регистрации программ для ЭВМ №2004612525 от 15.11.2004. М.: Федеральная служба по интеллектуальной собственности, патентам и товарным знакам.

Из перечисленных публикаций работы [1-7] выполнены автором самостоятельно. В работе [8] лично автором предложен гносеологический подход к тестологии и концепция изменения сознания при знакомстве индивидуума с тестологией, в работе [9] соискателем предложены основные задачи Испытательной лаборатории в процессе проведения сертификации тестовых материалов, в работе [10] соискателем было предложено использовать статистику качеств для оценки деятельности образовательных учреждений, в работах [11,13] автором лично предложены формулы для оценки количественных и качественных характеристик тестовых заданий, в работе[12] соискателем предложены нормативные документы по проведению сертификации качества тестовых материалов, в работе [14] соискателем разработаны процедуры экспертного анализа, структура и формат данных для системы проведения Интернет-экспертизы АСТ-Эксперт.

Подписано в печать4.05.2005 г. Объем 1,5 п.л. Тираж 100 экз. Заказ № 200/158

Московский государственный университет печати 127500, Москва, ул. Прянишникова, 2а. Отпечатано в ИПК МГУП

А

í ¡RAv

5

t saneen*»««? ('

V / 989

»э № га,is

Оглавление автор диссертации — кандидата технических наук Попова, Елена Дмитриевна

ВВЕДЕНИЕ.

1. АНАЛИЗ ПРОБЛЕМАТИКИ, СУЩЕСТВУЮЩИХ ПОДХОДОВ, НАУЧНЫХ ШКОЛ И НАПРАВЛЕНИЙ.

1.1. Основы культуры тестирования.

1.2. Формирование классической и современной теории тестов.

1.3. Квалиметрия в тестологии.

1.4. Подходы к обработке мнений экспертов.

1.5. Подходы к стандартизации представления тестовых материалов.

1.6. Выводы по главе.

2. РАЗРАБОТКА МОДЕЛЕЙ РАСЧЕТА ХАРАКТЕРИСТИК ТЕСТОВЫХ ЗАДАНИЙ И БАНКОВ.

2.1. Методика расчета характеристик тестовых заданий по результатам пробного тестирования.

2.2. Разработка модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов.

2.3. Разработка модели расчета объема выборочной совокупности студентов при тестировании.

2.4. Методика расчета надежности теста и погрешности измерения тестового балла

2.5. Методика расчета критериального балла.

2.6. Методика оценки валидности банка тестовых материалов.

2.7. Разработка модели расчета количественных характеристик БТМ.

2.8. Расчет экономической эффективности при использовании разработанных моделей.

2.9. Выводы по главе.

3. РАЗРАБОТКА МЕТОДИКИ СОЗДАНИЯ КАЧЕСТВЕННЫХ ТЕСТОВЫХ . МАТЕРИАЛОВ.

3.1. Эволюция сознания восприятия тестологии.

3.2. Методические рекомендации по организации разработки тестовых материалов.

3.3. Разработка методики оценки качества тестовых материалов.

3.4. Мера трудности, как фактор качества тестовых материалов.

3.5. Разработка методики обработки результатов экспертизы на основе непараметрической статистики.

3.6. Методика расчета количества экспертов для проведения экспертизы тестовых заданий.

3.7. Разработка технологии сертификации качества тестовых материалов.

3.8. Выводы по главе.

4. РАЗРАБОТКА АЛГОРИТМОВ И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ЭКСПЕРТИЗЫ И СЕРТИФИКАЦИИ ТЕСТОВЫХ МАТЕРИАЛОВ.

4.1. Разработка Интернет-системы проверки корректности формулировок в ТЗ.

4.2. Разработка способов поддержки спецификации IMS QTI.

4.3. Разработка системы Интернет-экспертизы.

4.4. Выводы по главе.

Общие результаты и выводы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Попова, Елена Дмитриевна

Актуальность работы. В соответствие с Концепцией модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ в 2002 году (Распоряжение Правительства РФ от 29 декабря 2001 г. № 1756-р, приказ МО РФ №393 от 11.02.02), «главная задача модернизации образования -обеспечение современного качества образования». Для этого предполагается создание необходимых условий для повышения уровня качества профессионального образования, которые соответствовали бы требованиям к специалистам, необходимым современному обществу. Таким образом, совершенствование качества образования рассматривается в Концепции модернизации Российского образования на период до 2010 года как приоритетная проблема. С другой стороны, в настоящее время существует проблема оценки уровня качества образования в том или ином образовательном учреждении. Эти два направления тесно связаны между собой и в узком смысле могут быть сведены к проблеме объективной оценки уровня учебных достижений студентов высших учебных заведений России. Основными задачами здесь являются методы и методики, позволяющие оценить уровень овладения учащимися учебного материала, умение применять полученные знания для решения задач, способность синтезировать полученные знания, умения и навыки в процессе творчества и саморазвития. В значительной мере решение этих задач может быть получено с применением методов дидактического тестирования, которое выступает в качестве достаточно объективного инструмента оценки достижений. Однако при отсутствии высококачественных тестовых материалов нельзя говорить об объективности оценки качества полученных в образовательном процессе результатов. Поэтому задача обеспечения и оценки качества тестовых материалов, которая исследуется в данной диссертационной работе, является актуальной и направлена на оценку результатов образования[92].

Не секрет, что отношение к науке тестологии у каждого индивидуума может быть кардинально различно. Многие резко осуждают применение тестов в научной и педагогической деятельности, но, не смотря на это большинство высших учебных заведений России внедряют в процесс компьютерное тестирование. Анализ ситуации показывает, что резкое негативное отношение к тестам чаще всего складывается благодаря очень низкому качеству самих банков тестовых заданий, которые являются конгломератом психо-социо-педагогических мыслей составителя. Такие задания справедливо подвергаются резкой критике не только специалистами в предметной области, по которой составлен тест, но и специалистами других областей, которые видят явные ошибки и неточности в составлении самого тестового суждения.

Ученые, исследовавшие данную область на протяжении нескольких десятилетий, пришли к выводу, что наиболее верным решением выхода тестологии из кризисной ситуации неприятия является разработка и применение разработчиками методологических правил при составлении тестов, проведение экспертизы и сертификации тестовых, материалов, а также создание качественных методов обработки результатов тестирования.

Безусловно, переход на новые информационные технологии требует новых решений, доработки и дополнений в существующих теориях. Предоставление простого статического теста с вероятностным предъявлением заданий становится не актуальным. Повышается интерес к адаптивным алгоритмам тестирования, а, следовательно, задача составителя тестов усложняется. Появляются задания разной трудоемкости, требующие реализации в своей формулировке нескольких концептов.

Несмотря на достаточно большой имеющийся теоретический задел, до настоящего времени не было предложено однозначной и обоснованной методики проведения процедуры экспертизы качества тестовых материалов. Поэтому одной из задач данной работы является построение единой методики и технологии для экспертизы тестовых материалов, в которых должны быть предложены подходы к механизмам проведения экспертизы и автоматизации процесса оценки каждого задания из., представленного банка. Кроме того, .в, диссертациошюй. работе рассматривается методика составления качественного тестового суждения, которая интегрирует предложенные ранее способы по повышению качества теста, а также учитывает новые разработки данной диссертации, которые не были исследованы ранее. Все предложенные пункты методологических правил адаптированы автором под автоматизированный процесс представления и обработки банков тестовых заданий.

Целью данной диссертационной работы является разработка моделей и алгоритмов оценки качества тестовых материалов на основе элементов классической и современной теории тестов, методов математической статистики и статистики качеств.

Задачи исследования. В соответствии с поставленной целью требуется решить следующие задачи:

• провести анализ существующих методов оценки качества банков тестовых заданий и методов обработки мнений экспертов;

• разработать модели вычисления характеристик тестовых заданий и банков тестовых материалов;

• создать методику и технологию разработки качественных тестовых материалов;

• разработать технологию сертификации качества тестовых материалов;

• решить практические задачи по проектированию алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов.

Объектом исследования является область теоретической информатики, обеспечивающая решение актуальной задачи оценки качества объектов произвольной природы, связанная с разработкой моделей и алгоритмов анализа данных, методов взаимодействия информационных процессов и обеспечения информационных потребностей коллективных и индивидуальных пользователей.

Методы исследования. Для достижения поставленной в работе цели и решения перечисленных задач использованы методы классической и современной теории тестов, математической статистики, статистики качеств, элементы квалиметрии. Разработка программ для реализации алгоритмов проведена на языках программирования VBScript, JavaScript по технологии ASP.

Методологической основой исследования являются работы в области теории тестирования, посвященные общим закономерностям разработки тестовых материалов и. обработки результатов тестирования—(труды ;А.Анастази[8], В.С.Аванесова[1;2], М.Б.Челышковой[110], В.И.Васильева[24;25;26],

В.П.Беспалько[14;15] и др.), а также работы по принципам экспертного анализа, квалиметрии и статистической обработки данных (труды Г.Г.Азгальдова[3;4;5], В.С.Черепанова[117], Б.Г.Литвака[61], Р.Джессена[41], В.Ю.Переверзева[78] и др.), в том числе работы по статистике объектов нечисловой природы (В.В.Красильников[58], М.И.Грабарь [37] и др.).

Достоверность полученных результатов подтверждается использованием математических методов теории тестов, математической статистики и статистики качеств, а также практической реализацией и внедрением разработанных методов и алгоритмов.

Научная новизна полученных в данной работе результатов состоит в следующем:

1. Разработаны модели расчета объема случайной выборочной совокупности тестовых заданий при экспертизе и студентов при тестировании, позволяющие осуществлять прогнозирование наличия некачественных заданий в банке тестовых материалов и результаты тестирования студентов в генеральной совокупности с допустимым уровнем верности.

2. Впервые предложена модель расчета коэффициента множественной . конкордации мнений экспертов при оценке качества тестовых, заданий по множеству многомерных факторов на основе теории статистики качеств и разработаны соответствующие этой модели алгоритмы обработки совокупного мнения экспертов.

3. Разработана новая модель для расчета количественных характеристик банков тестовых заданий в условиях различной степени агрессивности субъектов тестирования, позволяющая прогнозировать узнаваемость банков тестовых материалов.

4. Предложены новые методика создания качественных тестовых материалов и технология их сертификации.

5. Впервые предложена классификация этапов эволюции сознания восприятия науки тестологии индивидуумом.

Оценка теоретической значимости результатов работы. Полученные модели и математические алгоритмы являются теоретической основой для создания автоматизированной системы экспертизы и сертификации тестовых материалов для повышения качества банков тестовых, заданий. Нормативные документы и методики по сертификации тестовых материалов применяются для оценки качества банков тестовых заданий, используемых при итоговой аттестации студентов высших учебных заведений.

Практическая ценность работы. На основании предложенных теоретических разработок создана автоматизированная программа "АСТ-Эксперт" (свидетельство об официальной регистрации программ для ЭВМ №2004612525 от 15.11.2004. М.Федеральная служба по интеллектуальной собственности, патентам и товарным знакам), что позволило автоматизировать процесс оценки качества тестовых материалов с использованием Интернет-технологий. Предложенные методики легли в основу технологии проведения сертификации тестовых материалов Органом сертификации (аттестат аккредитации № РОСС

RU.0001.11Cni3 от 17.12.03) и испытательной лаборатории (аттестат аккредитации № РОСС RU.0001.21CII35 от 23.09.03).

На защиту выносятся следующие положения:

• модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов и расчета объема выборочной совокупности студентов при тестировании;

• модель и алгоритм обработки совокупного мнения экспертов на основе теории статистики качеств;

• модель для расчета количественных характеристик банков тестовых заданий в условиях различной степени агрессивной среды;

• классификация этапов эволюции сознания восприятия науки тестологии индивидуумом;

•технология и алгоритмы проведения сертификации и экспертизы тестовых материалов.

Внедрение результатов. Нормативные документы по сертификации тестовых материалов для итоговой аттестации студентов применяются Федеральной службой по надзору в сфере образования и науки для экспертизы тестовых материалов. Модели и алгоритмы оценки качества тестовых материалов внедрены в Московском государственном университете печати и в AHO "Центр образовательных коммуникаций и тестирования профессионального образования". Результаты работы также использованы при выполнении государственного контракта № 1070(2003-2004гг).

Апробация результатов работы. Основные результаты диссертационной ' - работы обсуждены на Всероссийских конференциях "Развитие методов, и. средств-компьютерного тестирования", Москва, 2004; "Развитие методов и средств компьютерного тестирования", Москва, 2005. Модели и алгоритмы, полученные автором данной работы, использовались в процессе подготовки экспертов по оценке качества банков тестовых материалов, используемых при аттестации высших учебных заведений.

Публикации. Основные работы изложены в 14 научных публикациях. Программное обеспечение официально зарегистрировано в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем диссертации. Диссертационная работа состоит из введения, 4-х глав, заключений по каждой главе, основных результатов, списка использованной литературы и приложений.

Заключение диссертация на тему "Разработка моделей и алгоритмов оценки качества тестовых материалов"

6. Результаты работы внедрены на уровне Федеральной службы по надзору в сфере образования и науки, а также в пяти образовательных учреждениях.

Библиография Попова, Елена Дмитриевна, диссертация по теме Теоретические основы информатики

1. Аванесов B.C. Основы научной организации педагогического контроля высшей школы. -М.: Исслед. центр, 1989 г.

2. Аванесов B.C. Тесты в социологическом исследовании. Москва. Издательство "Наука", 1982.

3. Азгальдов Г.Г. Теория и практика качества товаров (основы квалиметрии). М.: Экономика, 1982.-256 с.

4. Азгальдов Г.П,-Азгальдова Л.А.- Количественная оценка качества (квалиметрия): Библиография. М., 1971.

5. Азгальдов ГГ., Райхман Э.П. О квалиметрии. Издательство стандартов, 1972.

6. Алексеев Н.Г. г Методические проблемы проведения массовых обследований уровня знания учащихся: статика и динамика/ЯТроблемы педагогической квалиметрии / Под ред. В. И. Огорелкова. М., 1973. Вып.1.

7. Анализ нечисловой информации в социологических исследованиях. М., 1985.

8. Анастази А. Психологическое тестирование: Пер. с англ. М., 1982. Т. 1./2.

9. Архангельский СИ., Михеев В. И., Перельцвайг Ю. М. Вопросы измерения, анализа и оценки результатов в педагогических исследованиях. М., 1975.

10. Архангельский СИ. Учебный процесс в высшей школе, его закономерные основы и методы. М., 1980.

11. Архангельский СИ., Михеев В.И. Теоретические основы научной организации педагогических исследований. М., 1976.

12. Архангельский СИ., Михеев В.И., Перельцвайг Ю.М. Вопросы измерения, анализа и оценки результатов в педагогических исследованиях. М., 1975.

13. Аткинсон Р. и др. Введение в математическую теорию обучения. М., 1969.

14. Беспалько В.П. Основы теории педагогических систем. Воронеж, 1977.

15. Беспалько В.П. Теория учебника: Дидактический аспект. М.:Педагогика, 1988.

16. Бешелев Д., Гурвич Ф. Г. Математико-статистические методы экспертных оценок. М., 1980

17. Бирюков Б.В., Геллер Е. Ф. Кибернетика в гуманитарных науках. М., 1973.

18. Болотник Л.В., Соколова М.А. Выделение объектов проверки на основе структурирования учебного материалаУ/Совершенствование проверки знаний и умений учащихся / Под ред. Р. Ф. Кривошаповой. М., 1979.

19. Болотник Л.В., Соколова М.А. Тематическая модель структуры з^ебного материала // Проблемы педагогических измерений:; Межвуз. сб. тр. / Под ред. В. И. Левина. М., 1984.

20. Буш Р. В., Мостеллер Ф. Стохастические модели обучаемости. М., 1962.

21. Васильев В.И., Демидов А:Н., Малышев Н.Г., Тягунова Т.Н. Методологические правила конструирования компьютерных педагогических тестов. М.: Изд-во ВТУ, 2000. С 30-52.

22. Васильев В.И., Красильников В.В. и др. Оценка качества деятельности образовательного учреждения / М.: Издательство ИКАР, 2005. - 320с.

23. Васильев В.И., Красильников В.В., Плаксий СИ., Тягунова Т.Н. Статистический анализ многомерных объектов произвольной природы, Москва, изд. ИКАР, 2004 С147-258.

24. Васильев В.И., Тягунова Т.Н. Культура компьютерного тестирования. / В5ти частях. М.: МГУП, 2002.

25. Васильев В.И., Тягунова Т.Н. Основы культуры адаптивного тестирования. - М.: Издательство ИКАР, 2003. - 584 с.

26. Васильев В.И., Тягунова Т.Н. Теория и практика формирования программно-дидактических тестов. - М.: Изд-во МЭСИ, 2001.

27. Васильева Н.Е. Выборочный метод в аудите. // Банковский р'яд, весна 2000(1). (http://www.apko.ni/head/vasil000300.html)

28. Воловик П.Н. Проблемы применения методов тео'рии вероятностей и математической статистики в педагогической теории и практике: Автореф. докт. дис. Киев, 1977.

29. Воронов Ю.П. Методы сбора информации в социологическом исследовании. М., 1974.

30. Воскерчьян СИ. Об использовании метода тестов при учете успеваемости школьников//Сов. педагогика. 1963. № 10.

31. Гаврилова ТА. Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992. 200 с.

32. Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс. 1976-495 с.

33. Грабарь М.И. Об одном алгоритме получения количественной оценки знаний учащихся//Сов. педагогика. 1981. № 5.

34. Грабарь М.И. Применение компонентного анализа для обработки результатов контрольных работ и анкетирования//Проблемы педагогических измерений: Сб. научных трудов / Под ред. В. И. Левина.М.;1984. '^^••- •: . . .. .

35. Грабарь М.И. Применение математических моделей для исследования латентных факторов, влияющих на результаты обучения//Сов. педагогика. 1979. № 10.

36. Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях: Непараметрические методы. М., 1977.

37. Григорьева Е.А. Оценивание как метод педагогического исследования: Автореф. канд. дис. Л., 1974.

38. Гуленко В.В. Формы мышления. //Соционика, ментология и психология личности, N 4, 2002 (http://socionicsl6.narod.rii/t/gul-402.html).

39. Гусева Н.Д. Особенности применения методов многомерного статистического анализа в педагогическом исследовании: Автореф. канд. дис. Л., 1973.

40. Джессен Р. Методы выборочных обследований. М.: Финансы и статистика, 1985.

41. Джефри Вялфорд. Современная типология педагогических тестов.

42. Джугели Э.П., Вепхвадзе А.А. Кибернетика и проблемы обучения. Тбилиси, 1981.

43. Докторов Б.З. О надежности измерения в социологическом исследовании. Д., 1979.

44. Дружинин Н.К. Выборочный метод и его применение в социально- экономических исследованиях. М.: Статистика, 1970.

45. Звегинцев В.А. К вопросу о природе языка. - Вопр. философии, 1979, №11,с.75.

46. Здравомыслов А.Г. Методология и процедура социологических исследований. М., 1969.

47. Измерение знаний при проведении массовых обследозаний: Методические рекомендации / Сост. Л. В. Болотник. М., 1984.

48. Информационное письмо № 14-55-681ин/15 о сертификации качества педагогических тестовых материалов от 13.11.2000 // Министерство Образования Российской Федерации. - 2000.

49. Ительсон Л.Б. Математические и кибернетические методы в педагогике. М., 1964.

50. Ительсон Л.Б. Об использовании математических и кибернетических методов в педагогических исследованиях // Сов. педагогика. 1962. № 4.

51. Каменский B.C. -Методы " обработки/ порядковой информации: неметрическое многомерное шкалирование. (Обзор). - В кн.: Многомерный статистический анализ в социально-экономических исследованиях. М., «Наука», 1974.

52. Кендэл М. Ранговые корреляции. М., 1978.

53. Кибернетика и педагогика / Под ред. Дж. Ушшерн: Пер. с англ. М., 1972.

54. Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р., Олдендерфор М. С, Блэшфилд Р. К. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989.

55. Китаев Н.Н. Групповые экспертные оценки. М., 1975.

56. Кохрен В.Г. Выборочные методы. М.: Статистика, 1976.

57. Красильников В.В. Статистика объектов нечисловой природы. - Наб. Челны: Изд-во Камского политехнического института, 2001. 144 с.

58. Кузьмина Н.В. и др. Методы системного педагогического исследования. Л., 1982.

59. Левин А.В. Вопросы оценки качества контрольных работ // Проблсхмы педагогической квалиметрии / Под ред. В. И. Огорелкова. М., 1974. Вып. 1.

60. Литвак Б.Г. Экспертная информация: Методы получения и анализа. - М.: Радио и связь, 1982. - 184 с, ил. "

61. Логвинов И.И. Имитационное моделирование учебных программ. М., 1980.

62. Марченко Е.К. Методы квалиметрии в педагогике. М., 1979.

63. Мизинцев В.П. Моделирование и количественные характеристики дидактических объектов: Автореф. канд. дис. М., 1970.

64. Микк Я.А. Оптимизация сложности учебного текста. М., 1981.

65. Микк Я.А. Оценка учебников формулами трудности текста/ЯТроблемы школьного учебника. М., 1977. Вып. 5.

66. Микк Я.А. Теория измерения и оптимизации степени сложности учебного материала в общеобразовательной школе: Автореф.докт. дис. М., 1983.

67. МиркинБ.Г. Анализ качественных признаков и структур. М., 1980.

68. Михеев В.И. Моделирование и методы теории измерений в педагогике. М., 1987.

69. Моисеев В.Б., Пятирублёвый Л.Г., Таранцева К.Р. Системный подход к формированию единого формата образовательного теста // Материалы международной конференция «Информационные технологии в открытом образовании».-М.:Изд-воМЭСР1,2001.-С. 311-315. • • •

70. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. - М: Прометей, 2000. - 169 с.

71. Никандров Н.Д. Программированное обучение и идеи кибернетики: Анализ зарубежного опыта. М., 1970.

72. Объективные характеристики, критерии, оценки и измерения педагогических явлений и процессов / Под ред. А. М. Арсеньева, М. А. Данилова. М., 1973.

73. Огорелков В. И. Проблема измерения и оценки знаний учащихся//Сов. педагогика. 1975. № 12.

74. Огорелков В.И., Болотник Л.В. Вопросы анализа структуры знаний учащихся и методики составления контрольных работ // Проблемы педагогической квалиметрии / Под ред. В. И. Огорелкова. М., 1975. Вып.2.

75. Огорелков В.И. Основные направления исследования проблем измерения качества знаний учащихся // Проблемы педагогической квалиметрии / Под ред. В.И.Огорелкова. М., 1974. Вып. 1.

76. Орлов А.И. Заводская лаборатория. 1995, т.61,№ 3.

77. Переверзев В.Ю. Критериально-ориентированное педагогическое тестирование. Учебное пособие. - М,: Логос, 2003. - 120с.

78. Попов Д.И., Попова Е.Д. Количественные характеристики банков тестовых заданий //Перспективные информационные технологии и интеллектуальные системы (ПИТИС). №1(21) 2005г, Таганрог: Изд-во ТРТУ.

79. Попов Д.И., Попова Е.Д. Нормативные документы по сертификации тестовых материалов для итоговой аттестации студентов //Утверждены 15.02.04 заместителем руководителя департамента лицензирования, аккредитации и аттестации Минобразования РФ, с.42.

80. Попов Д.И., Попова Е.Д. Подходы к оценке валидности теста при экспертизе банков тестовых заданий //Материалы второй Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования». М. 2004, с.92-95.

81. Попов Д.И., Тягунова Т.Н. Попова Е.Д. АСТ-Эксперт // Свидетельство об официальной регистрации программ для ЭВМ №2004612525 от 15.11.2004. М.: Федеральная служба по интеллектуальной собственности, патентам и товарным знакам.

82. Попова Е.Д. Методика определения размера выборки при экспертизе программно-дидактических тестовых материалов //Мир человека:научн.-. информационное изд., вып.4. - Красноярск:Изд-во СибГТУ, 2003, с.46-50.

83. Попова Е.Д. Оценка качества тестовых суждений //Материалы третьей Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования», М.:Изд-во МГУП, 2005, с.172-178.

84. Попова Е.Д. Оценка уровня учебных достижений //Известия высших учебных заведений. Проблемы полиграфии и издательского дела № 2'2005,М.:2005.

85. Попова Е.Д. Расчет объема выборочной совокупности при тестировании //Перспективные информационные технологии и интеллектуальные системы (ПИТИС). №4(20) 2004г, Таганрог: Изд-во ТРТУ, с.84-87, http://pitis.tsure.ru //files20 //pl5.pdf.

86. Попова Е.Д. Социальный подход в тестологии //Материалы третьей Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования», М.:Изд-во МГУП, 2005, с. 168-169.

87. Попова Е.Д. Способ отбора экспертов при сертификации тестовых материалов //Материалы третьей Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования», М.:Изд-во МГУП, 2005, с.170-171.

88. Попова Е.Д., Попов Д.И. Эволюция сознания восприятия тестологии //Материалы третьей Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования», М.:Изд-во МГУП, 2005, с. 178-182.

89. Попова Е.Д., Узденов Д.М. Автоматизация экспертной оценки качества тестовых заданий //Материалы второй Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования». М. 2004, с. 109-113.

90. Попова Е.Д., Этезов Б.Б., Алексеенко А.А., Сапарова А.Т. Анализ оценки качества системы образования //Материалы второй Всероссийской научно-методической конференции «Развитие методов и средств компьютерного тестирования». М. 2004, с.135-136.

91. Почекутов СИ., Савченко Е.Е. Методические основы педагогического тестирования: Учеб. пособие. Красноярск: ИПЦ КГТУ, 2004. 60 с.

92. Проблемы '^-педагогической квалиметрии: Межвуз, • сб. тр./Под ред. В. И. Огорелкова. М., 1973, 1975. Вып. 1, 2; То же/Под ред. В.И. Левина. М., 1984.

93. Растригин Л.А. Современные принципы управления сложными объектами. -М. : Сов. Радио, 1980.-232 с. ил.

94. Розенберг Н.М. Проблема измерений в дидактике. Киев. 1979.

95. Сайт Международного комитета стандартов в обучении http://ltsc.ieee.org/

96. Сайт с описанием стандартов IMS // http:\\www.ims.com.

97. Сайт с описанием стандартов IMS и их применения// http :\\www. imsproj ect.org.

98. Сатаров Г.А., Каменский B.C. Общий подход к анализу экспертных оценок методами неметрического многомерного шкалирования

99. С ид ельников Ю.В. Разработка методов повышения качества экспертных оценок: Автореф. канд. дис. М., 1987.

100. Сохор A.M. Логическая структура учебного материала. М., 1974.

101. Сохор A.M. Сравнительный анализ учебных текстов (на материале учебников физики) //Проблемы школьного учебника. М., 1978. Вып.6.

102. Сохор A.M. О методах количественной оценки эффективности учебных обобщений//Сов. педагогика. 1977. № 2.

103. Тера-Лексикон: Иллюстрированный энциклопедический словарь. - М.: ТЕРРА, 1998. • •

104. Уваров А.Ю. Информационное моделирование как метод дидактических исследований: Автореф. канд. дис. М., 1971.

105. Уотермен Д. Руководство по экспертным системам: Пер. с англ. М.: Мир, 1989.388с.

106. Фридман Л.М. Логико-психологический анализ школьных учебных задач. М., 1977.

107. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. -М.:Логос, 2002.

108. Черепанов B.C. Метод групповых экспертных оценок//Сов. педагогика. 1987. №5.

109. Черепанов B.C. О применении метода ГЭО в дидактических исследованиях//Проблемы педагогических измерений: Межвуз. сб. тр./Под ред. В.И.Левина. М., 1984.

110. Черепанов B.C. Экспертные оценки в педагогических исследованиях

111. Шварц Г. Выборочный метод. М.: Статистика, 1978.

112. Шмерлинг Д.С. и др. Экспертные оценки. Методы и при-, менение (обзор) // Статистические методы анализа экспертных оценок. М., 1977.

113. Beals R., Krantz D., Tversky A. Foundations of Multidimensional Scaling. - "Psychological Review", 1968, v.75, N2.

114. Berk R.A. Criterion-referenced measurement: The state of art. Baltimor, MD: Johns Hopkins University Press, 1980.

115. Carrol J.D. Individual Differences and Multidimensional Scaling. Multidimensional Scaling. Theory and Applications in the Behavioral Science, v.l Theory, N.Y., 1972.

116. Cattel J.McK. Mental tests and Measurement. Mind, 1980, 15.

117. Coombs C.H., Dawes R.N., Tversky A. Mathematical Psychology N.Y., 1970.

118. Extensible Markup Language (XML) 1.0. W3C Recommendation, 10 February, 1998.

119. Galton F. Inquiries into Human Faculty and its Development. L.,1883

120. IMS Content Packaging Information Model, T.Anderson, M.McKell, A.Cooper and W.Young, C.Moffatt, Version 1.1.2, IMS, August 2001.

121. IMS Question & Test Interoperability: Overview, C.Smythe, E.Shepherd, 1..Brewer and S.Lay, Version 1.2, IMS, September 2001.

122. McCall W.A. How to Measure in Education. N.Y., 1922

123. Pearson, K. (1896). Regression, heredity, and panmixia. Philosophical Transactions of the Royal Society of London, Sen A, 187, 253-318.

124. Rasch G. Probablistic Model for- Some Intelligence and -Attainment Tests. Chicago. Univ.of Chicago Press, 1980.

125. Roskam E.E. Metric Analysis of Ordinal Data in Psychology. Nijmegem, 1968.

126. Spearman С "General intelligence" objectively determined and measured. - American Journal of Psycology, 1904, 15.