Разработка методологических правил проектирования и методов оценки качества тестовых заданий

Узденов, Далхат Мухадинович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка методологических правил проектирования и методов оценки качества тестовых заданий

кандидата технических наук: Узденов, Далхат Мухадинович
город: Москва
год: 2006
специальность ВАК РФ: 05.13.17

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка методологических правил проектирования и методов оценки качества тестовых заданий»

Автореферат диссертации по теме "Разработка методологических правил проектирования и методов оценки качества тестовых заданий"

На правах рукописи

УЗДЕНОВ Далхат Мухадинович

РАЗРАБОТКА МЕТОДОЛОГИЧЕСКИХ ПРАВИЛ ПРОЕКТИРОВАНИЯ И МЕТОДОВ ОЦЕНКИ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ

Специальность 05.13.17 — Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва 2006

Работа выполнена на кафедре информационных систем в Московском государственном университете печати

Научный руководитель:

доктор технических наук, профессор Васильев Владимир Иванович

Официальные оппоненты:

доктор технических наук, доцент Строганов Виктор Юрьевич

кандидат технических наук, доцент Попов Дмитрий Иванович

Ведущая организация: Московский государственный

университет экономики, статистики и информатики

Защита состоится «27» сентября 2006 г. в 15 час. 30 мин. на заседании диссертационного совета K2I2.I47.02 в Московском государственном университете печати по адресу: Москва, ул. Прянишникова, 2а.

С диссертацией можно ознакомиться в библиотеке МГУП. Автореферат разослан «15~» 2006 г.

Ученый секретарь диссертационного совета К 212.147.02,

доктор технических наук, профессор

Агеев В.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Одной из центральных проблем в сфере образования является объективная и технологичная оценка качества обученности субъектов в условиях проведения массовых проверок, основанных на процедурах компьютерного тестирования. С этой точки зрения создание качественных тестовых материалов предстает как культурно значимый проект, отраженный в Концепции модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ (приказ МО РФ №393 от 11.02.02).

Для успешного решения данной задачи необходимо объяснить как устроены те «фильтры», которые позволяют субъекту проектировать тестовые утверждения заданного уровня качества, как происходит установление аксиом и выдвижение научных гипотез о закономерных связях процессов мышления в тестологии. До сих пор не так много исследователей подходит вплотную к решению этой задачи. Многие разработчики тестовых материалов до сих пор считают, что эта проблематика не является актуальной, поскольку ее решение будет ограничивать идею формирования личного содержания тестовых утверждений. Однако деятельность при конструировании тестовых утверждений без учета правил — источник создания псевдотестов.

Создание системы методологических правил проектирования гармонично целостных композиций тестовых утверждений способно стимулировать разработку корректных тестовых утверждений, но этого еще не достаточно для того, чтобы применять их в практической деятельности. Необходимо еще установить тестологические характеристики каждой тестовой ситуации. Господствующая ныне в теории тестов логика тождества - в отрыве от логики аналогий — не годится для того, чтобы объяснить и понять механизм оценки качества тестовых заданий как многомерных объектов нечисловой природы. Эта актуальная задача также решается автором в настоящей диссертационной работе.

Целью данной диссертационной работы является разработка концептуальных правил проектирования и методов оценки качества тестовых заданий, с применением правдоподобных рассуждений, статистики качеств и теории информации.

Задачи исследования. В соответствии с поставленной целью необходимо решить следующие задачи:

• провести критический анализ применения в тестологии различных форм мышления;

• разработать систему методологических правил конструирования тестовых заданий;

• создать модели и алгоритмы интегративной оценки качества тестовых утверждений на основе топометрик статистики качеств;

• решить практические задачи проведения апробации тестовых суждений;

Объектом исследования является область теоретической информатики, связанная с культурой семантики логичных и логических рассуждений, зачастую имеющих неформальных вид, и создание аналитических моделей оценки качества тестовых заданий.

Методы исследования. Для решения поставленных задач проводится критический анализ общей семантики форм мышления и используется аппарат как параметрической, так и непараметрической статистики. Разработка программного обеспечения для реализации алгоритмов проведена в среде Visual Basic 6.

Методологической основой исследования являются работы в области теории компьютерного тестирования, посвященные культуре мышления и редуцирования правил проектирования тестовых материалов, а также работы по анализу качества многофакторных объектов произвольной природы (труды А.И. Субетго, Ю.А. Петрова, B.C. Аванесова, В.И. Васильева, A.C. Кармина, Д. Пойа и др.)

Верность полученных результатов подтверждается практической реализацией, апробацией и внедрением методологических правил, методов и алгоритмов оценки качества тестовых материалов на уровне Рособрнадзора и высших учебных заведений.

Научная новизна полученных в данной работе результатов состоит в следующем:

1. Проведен критический анализ семантики различных форм мышления в тестологии, на основе которого формулируется нормативная система проектирования тестовых утверждений различного уровня ценности.

2. Показано, что ни чистая логичность, ни аналогичность не являются формализованными понятиями; они не сводимы друг к другу, что не позволяет дать строгое определение логичности в теории тестов, не прибегая к правдоподобным построениям композиций тестовых утверждений.

3. Переключение направленности семантического анализа с проблемы истины на проблему эпистемологических контекстов расширил предмет философской логики, преобразовав ее в теорию аргументации.

4. Методология интегральной оценки качества многофакторных тестовых заданий должна рассматриваться как находящаяся в рамках между логикой аналогий и тем или иным вариантом логики тождества.

5. Благодаря синтезу логико-гносеологического и ценностно-смыслового подходов и топометрикам статистики качеств, автору впервые удалось построить констелляции оценки качества

. кратких тестовых суждений, исследуемых как многофакторные

. объекты числовой и нечисловой природы.

Оценка теоретической значимости результатов - работы.

Разработанная автором настоящей диссертации система методологических правил проектирования тестовых материалов составляют ядро нормативной системы проектирования тестовых заданий. Полученные модели и алгоритмы являются основой для оценки качества тестовых заданий как многомерных объектов произвольной природы, что является главной задачей при создании банков тестовых заданий с заданными параметрами валидности и надежности.

Практическая ценность работы. Поскольку основные положения данной работы выстраиваются не аксиоматически, а содержательно, то полученные правила и формальные отношения непосредственно реализуют сам действительный мир тестологического познания, когда в метатеории рассматриваются неформальные семантические модели, в качестве которых выступают сущие элементы тестовых утверждений и их интегральные оценки качества. Предложенные модели и алгоритмы положены в основу проведения апробации и экспертизы тестовых заданий испытательной лаборатории по проведению сертификации качества тестовых материалов и технологий компьютерного тестирования (аттестат аккредитации №РОСС RU.0001.21 СП35 от 23.09.03). Результаты работы нашли практическое применение в процессе апробации баз программно-дидактических тестовых заданий (ПДТЗ), используемых во время аттестационных проверок студентов.

На защиту выносятся следующие положения:

• методологические правила проектирования гармонично целостных композиций тестовых утверждений, основанные на правдоподобных (индуктивных) рассуждениях;

• модель тестового задания как многофакторного объекта разнообразной природы;

• обоснование выбора топометрик для содержательного анализа качества тестовых заданий;

• комплексный и интегративный показатели оценки качества тестового задания и алгоритмы их вычисления;

• модели и алгоритмы апробации тестовых материалов.

Апробация результатов работы. Основные результаты

диссертационной работы обсуждены на Всероссийских конференциях «Развитие методов и средств компьютерного тестирования», Москва 2004; «Развитие методов и средств компьютерного тестирования», Москва 2005; «Управление качеством профессионального образования: от проблемы к системе», Казань 2005; «Инновационные методы и средства оценки качества образования», Москва 2006; «Экономико-правовые проблемы и перспективы развития уральского региона», Екатеринбург 2006.

Внедрение результатов. Методологические правила проектирования программно-дидактических тестовых заданий используются при повышении квалификации преподавателей «Методология и концепция компьютерного

адаптивного тестирования», проводимого Московским государственным университетом печати. Результаты работы положены в основу отчета при выполнении Государственного контракта №1070 от 22 ноября 2004 года (Федеральная целевая программа «Развитие единой образовательной среды (2001-2005)»), а также внедрены в ряде ВУЗов РФ.

Публикации. Основные положения диссертации изложены в 14 научных публикациях.

Структура и объем диссертации. Диссертационная работа состоит из введения, 4-х глав, выводов, основных результатов, списка используемой литературы и приложений. Диссертация изложена на 186 страницах, содержит 32 рисунка, 24 таблицы, 5 приложений. Список используемой литературы содержит 36 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цели и задачи диссертационного исследования, приведены положения, выносимые на защиту, обсуждены научная новизна и практическая значимость работы.

В первой главе разработана система методологических правил (паттернов) построения тестового утверждения, составляющая ядро нормативной системы построения тестовых суждений. Нормативная система проектирования тестовых заданий призвана регулировать деятельность разработчиков. Главное назначение системного подхода при создании паттернов проектирования тестовых заданий состоит в сокращении затрат времени и числа ошибочных решений в процессе поиска вариантов представления содержания тестовых утверждений, а также повышения их качества тестовых заданий, имеющих место при ориентации разработчиков только на «здравый смысл».

Предметом исследования является программно-дидактическое тестовое задание, обозначающее некоторую целостность, в которую входят лишь главные, наиболее существенные тестологические факторы числовой и нечисловой природы. Проведен критический анализ определений тестового задания, встречающихся в тестологической литературе, и предложен ряд новых дефиниций, отвечающих требованию эффективности той или иной конкретной ситуации.

Изучая развитие композиции тестового утверждения, мы используем метод восхождения от отражения тестовой ситуации (ТС) в сознании участников пространства тестовых проверок, когда в исходном понятии учитываются наиболее существенные факторы тестового задания (форма мышления «изнутри» — простое суждение; стандартизированное представление содержания «снаружи»; трудоемкость формирования заключения). Взяв за исходное определяющую сторону ПДТЗ и рассматривая его в развитии, мы переходим к проектированию краткого тестового утверждения (КТУ) и, наконец, к построению композиции гармонично целостного тестового утверждения ГЦТУ, которая представляет собой высокоорганизованную форму ВФ тестового задания как единство его существенных признаков, выражает его сущность. Предложена стратификация тестовых заданий на основе культуры их проектирования в зависимости от занимаемого статуса, обозначающего качественное расслоение последних на основании совокупности наиболее существенных тестологических факторов (рис. 1.).

Возрастание ценности тестовых заданий

Базовые компоненты

Г

Содержание Форма

Фоома мышления -г Краткость -р

Смысл 4- Существенный признак

Значение -Адресат

Пр оставление ПДТЗ

Л

Композиция

-- Различающая способность - ■ Целостность восприятия

Тектоническая ясность -- Пропорциональность -- Цветовое единство -(- Масштабность

Эстетичность + Шрифт

J

Выработан заданий. П1:

-У

ПДТЗ

Рис. 1. Стратификация тестовых суждений

ряд методологических правил проектирования тестовых

если это удовлетворяет решению поставленной дидактической задачи, то с учетом исходных аксиом следует применять по возможности более строгое, но в то же время и познавательно доступное определение тестового - утверждения;

П2: суждение есть исходное ключевое понятие, главная семантическая форма мышления, посредством которого выражается содержание композиций тестовых заданий различного уровня ценности;

ПЗ: выбор того или иного определения тестового задания обусловлен только потребностью решения поставленной в конкретном случае дидактической задачи;

П4: при объяснении основания (исходные посылки) не должны быть эквивалентны выводу (объясняемому);

П5: в нормативной системе проектирования ПДТЗ конкретного уровня значимости все элементы должны быть согласованы;

Пб: специфика корректности тестовой ситуации существенно детерминируется мыслительной формой утвердительного суждения, содержание которого представлено в одной из стандартизированных форм;

П7: всякая ТС имеет «изнутри» форму простого суждения или системы простых суждений заданной нормы трудности;

П8: культура проектирования ТС должна строиться на основе логичного мышления, учитывающего дедуктивные (формальные) и индуктивные (содержательные) рассуждения;

П9: тестовая ситуация проектируется с учетом накопленных интерсубъектами знаний в определенной предметной области;

П10: при вводе в тестовую ситуацию заключения полученный контекст должен оставаться истинным, при этом все утверждения, указанные в условиях ТС, должны быть также истинными;

П11: основные понятия тестовой ситуации должны быть явно и ясно определены;

П12: все повторяющиеся слова или буквы должны быть вынесены в исходные посылки.

П13: тестовое утверждение не должно содержать логического «герменевтического круга»;

П14: в кратком тестовом утверждении определяющий признак должен быть необходимым и достаточным;

П15: в кратком тестовом утверждении только один определяющий признак должен быть существенным относительно рассматриваемого содержания фрагмента учебного материала;

П16: порядок слов исходных посылок в КТУ должен быть таким, чтобы существенный признак (определяющее слово) располагался на первом месте и акцентировал внимание тестируемого на требования тестового суждения;

П17: нормативная система построения гармонично целостных тестовых суждений тем более совершенна, чем большее число факторов она объединяет и объясняет при минимуме исходных посылок;

П18: повышение уровней восприятия, понимания и мотивации испытуемых достигается отображением содержания композиций ГЦТУ в виде свернутых или объемно-пространственных представлений;

П19: гармоничная целостность высокоорганизованной формы ЭФТК обеспечивает проектирование тестового утверждения с учетом интегрального качества его композиции.

Во второй главе рассмотрены вопросы оценки нормы трудности тестового задания и связанные с этим системным параметром задачи шкалирования и классификации. Раскрыта специфика категории трудности тестового задания. Введены уровни трудности ПДТЗ и показана зависимость нормы трудности от содержания материала.

Компоненты трудности, исследуемые в этой главе, обсуждаются в понятиях и терминах концептов, когда процесс выполнения ПДТЗ разлагается на элементарные составляющие. Представления о целостном заключении на требование ПДТЗ основываются на изучении исходных тестовых посылок и взаимосвязей между концептами. Здесь существенным является учет возможности представления в виде тестовой ситуации формальных и неформальных областей знаний. Это создает серьезные проблемы при установлении количественных и качественных закономерностей, а также затрудняет формирование целостного (математического) взгляда на феномен «трудность».

Рис. 2. Классификация показателей трудности задания.

Целесообразно определить норму трудности ПДТЗ через поведенческие показатели как наиболее доступные в методическом отношении и важные в практическом применении их в оценке уровня учебных достижений испытуемых. Иногда оказывается достаточным определять трудность по одному показателю, например, как в классической теории тестов по вероятности правильного выполнения, или точнее по частоте корректных заключений испытуемых. В общем случае, однако, желательно оценивать норму трудности совокупностью двух или более показателей поведенческих показателей. Желательно найти способ оценки интегральной трудности задания, который позволил бы без существенных потерь и искажений полезной информации представить ее скалярной величиной.

Наряду с классическим определением нормы трудности задания, как частоты верного ответа (в пределе вероятность правильного выполнения), и подходом в рамках теории моделирования и параметризации педагогических тестов (ЖТ-теория), показана необходимость учета объема интеллектуальной деятельности (трудоемкости) выполнения тестового задания, как одного из важных поведенческих показателей, характеризующих интегральную норму трудности и дающих возможность гибкого адаптивного управления процессом тестирования. Приведена методика определения нормы трудности ПДТЗ через время его выполнения (время характеризует объем интеллектуальной деятельности, затрачиваемой испытуемым на формирование заключения).

Пусть процесс выполнения задания характеризуется одним показателем объема деятельности Т и одним показателем успешности деятельности О. Определим функциональную зависимость

т = <КО) (1)

или Г = (2)

Здесь / и ф - монотонно возрастающие функции показателя О.; ф зависит также от параметра >7, характеризующего задание или испытуемого.

Обозначим символом эталонное значение показателя успешности О.. Определим трудность задания как значение показателя объема

деятельности Т, которое он принимает при О. — . Обозначим трудность задания буквой и. На основании (1) и (2) находим:

¿>=/Ш О)

или £> = $Кб}>>'7) (4)

Зависимости (2), (3) и (5) приведены на рис. 6.

успешности выполнения задания и параметра Ц

Обратимся к одному из наиболее известных уравнений научения, предложенному Л.Л.Терстоном:

где Y — показатель успешности деятельности; L - максимально возможное значение показателя успешности; X — объем практики; R — параметр характеризующий скорость научения.

Перейдем к относительному показателю успешности Y/L и к введенным выше обозначениям: Q вместо Y/L, Т вместо X и Т] вместо R и переписываем уравнение (5) в виде:

Q=TTr,r (6>

откуда

'"tV т

Формула (7) есть частный вид формулы (2). Положив здесь Q = Qt, получаем формулу для трудности выполнения задания:

D-iV' w

являющуюся частным видом (4) [«Программированное обучение и обучающие машины». Киев, 1969, №1, с. 65 Г.А. Балл].

Особенностью описанного выше способа количественной оценки нормы трудности задания является то, что размерность трудности задания такая же как у показателя объема деятельности (в частном случае — размерность времени).

Отметим что целесообразность использования того или иного подхода в определении трудности задания обусловлена моделями и алгоритмами, которые используются как для управления процессом тестирования так и для интерпретации исходных данных с целью получения оценки уровня обученности респондента.

В завершение второй главы рассмотрены модели оценивания и методы обработки результатов тестирования. Приведена классификация математических моделей стандартизированных педагогических тестов. Рассмотрены их особенности и ограничения. Выделены два больших класса математических моделей — параметрические и непараметрические. Параметрические модели подразумевают набор параметров для описания заданий, что накладывает дополнительные ограничения на сами задания. Непараметрические модели предполагают меньшее число начальных ограничений, их всего 3:

1. Статистическая независимость заданий - общая вероятность получения того или иного набора ответов (xl...xj) на задания (XI...Xj) может быть выражена как произведение частных вероятностей.

2. Монотонность — характеристические кривые заданий Р(Х]=1|Т) являются неубывающими функциями уровня подготовленности Т (или неубывающими по каждой из координат, если Т — вектор).

3. Непрерывность — Т является вещественным числом, или вектором вещественных чисел (т.е. подготовленность оценивается в непрерывной шкале).

Эти три ограничения являются базовыми и характерны как для непараметрических, так и для параметрических моделей.

В параметрических моделях тестовые задания описываются с помощью набора параметров (трудность, различающая способность и т.д.). Среди параметрических моделей можно выделить следующие классы:

• заключения испытуемых на задания — дихотомические или полигамические (упорядоченные или неупорядоченные);

• одномерные (гомогенные тесты - уровень подготовленности) или многомерные (гетерогенные тесты - вектор подготовленности);

• по количеству параметров (одно-, двух- и трехпараметрические).

Рассмотрены классические подходы оценки результатов тестирования и предложены методы повышения ее точности.

Автором предложен метод корректировки суммарного балла по тесту с учетом вероятности угадывания, где конечная оценка вычисляется по формуле

где Р ~' Р* - среднее значение вероятностей угадывания правильных

заключений, получены формулы вычисления вероятности угадывания для тестовых заданий различной формы.

Предложен критерий целесообразности различения частично верных выводов на задание, основанный на, определенном в работе, коэффициенте дискриминантности тестового задания:

где Н - множество хорошо успевающих респондентов на шкале оценок ограничено снизу пороговой точкой Ь„ Ь — соответственно множество плохо успевающих респондентов, на шкале оценок ограниченно сверху пороговой точкой Ь]. При повышении уровня различения заключений респондентов проводится пересчет дискриминантности задания и принимается решение о целесообразности повышения точности различения выводов по данному заданию на основе степени изменения коэффициента дискриминантности.

(9)

(10)

Предложена методика ранжирования результатов тестовых испытаний с учетом энтропии заданий. Здесь в качестве основания ранжирования предлагается использовать оценки полученные по формуле:

к

в1=Инл, (п)

м

- энтропия тестового задания на данной выборке.

I |

где у

4=0 Рк

Предложенный подход ранжирования по дает не только более точное положение каждого испытуемого относительно других, но и может иметь другой порядок в отличие от ранжирования по первичному тестовому баллу.

Третья глава посвящена оценке интегральной характеристики ПДТЗ.

Здесь рассматривается познание структуры композиции ПДТЗ и способы оценки комплексного и интегрального качества ПДТЗ, как многомерного объекта, с помощью методов теории информации, статистики качеств и синтетической квалиметрии. Рассмотрен вопрос проектирования семантической шкалы и предложены методы шкалирования классификаторов, что напрямую связано с проблемой сведения разнородных признаков (классификаторов) ПДТЗ к единому основанию — синтетической шкале качеств, а также получением комплексной и интегральной оценки качества ПДТЗ. Обоснован выбор основания качества с точки зрения психологии и с точки зрения теории информации, основным выводом чего стало принятие К=9, как верхней границы приемлемого количества числа уровней интервалов качества. Выведены формулы линейного преобразования исходных классификаторов в семантическую шкалу качеств:

1

К +

К + 1 +

(К-1)

х.-х

] тах.у

X —X шах j шха] _

Х.-Х ) тах./

X -X . , шах.у mm.J

а:-1

х.-х

} тах.7

еспи\

X —X I

тах j тт. ] )

х.-х . 1

у тах. ]

<0,5

2 X

■X

>0,5

тах} лип}

здесь К — основание качества; Х^ —значение .¡-го признака объекта; Хтах|,

(12)

максимальное и минимальное значения ,)-го признака соответственно. Вводится логистическая зависимость:

А

к,=-

1 + е

-<1<*

+ С

по всем объектам

(13)

здесь «/ = Н = ^ Ру • 1п(-) - степенью значимости -го признака выбрана

/=1 Ру

его энтропия. В результате имеем конечную формулу:

к . = 7

1 +

А

т / \

1+П у х/ри

, (=1

А

т 1+П . 1=1 и

+ С

, если

+ С

, если

ПР9~р» +1

здесь А =--(К — 1),

т

ПРу-ре -1 1=1

<0,5

г 0,5

С -

Пру'ру /=1

Пр„~р« -1 /=1

(15)

Для практической реализации оценки качества ПДТЗ установлена процедура оценивания на алгоритмическом уровне, где представлены внутренние операции, определяющие процесс оценки в узком смысле слова (рис. 4.).

Построен комплекс оценочных показателей качества ПДТЗ через декомпозицию качества ПДТЗ в дерево свойств на основании нормативной системы проектирования тестового задания и для экспертных оценок приведены шкалы:

1. Форма мышления. Три уровня качества: 1 — вопрос, задача, определение, доказательство; 2 — высказывание; 3 — суждение.

2. Содержание. Два уровня качества: 1 — анализ; 2 — синтез.

3. Краткость. Количество символов в исходных посылках.

4. Существенный признак. 1 — более одного существенного признака. 2 — один существенный признак.

5. Однозначность. Четыре уровня качества. Уровни выставляются по наличию следующих условий: а) соразмерность объема определяющего понятия объему определяемого; б) отсутствие тавтологии, герменевтического круга определения понятия через само себя; в) наличие общего основания, т.е. условие однородности дистракторов (вариантов ответа). Например, при наличии только одного условия ставится 1, при наличии трех - 3.

6. Различающая способность. Будем рассчитывать по формуле (2.4.5.2.), приведенной во второй главе, диапазон изменения значений дискриминантносги ПДТЗ [-1,+1].

7. Целостность восприятия. 1 — да целостное восприятие, 0 - нет.

8. Тектоническая ясность. 1 — ясное, О — нет.

9. Пропорциональность. 1 — да пропорциональное, 0 — нет.

10. Трудоемкость. Выражается в количествах секунд (среднее значение), потраченных на формирование заключения.

11. Норма трудности. Частота неверных заключений (классическое понимание трудности).

Определены понятия комплексной и интегральной оценки качества ПДТЗ. Комплексная оценка качества ПДТЗ представляет собой сумму качеств по отдельным показателям. Интегральная оценка качества ПДТЗ является взвешенной суммой качеств по показателям с весами равными энтропии каждого отдельного показателя (классификатора).

Рис. 4. Алгоритм оценки тестовых заданий.

Четвертая глава посвящена апробации тестовых материалов. В ней представлены: методология апробации программно-дидактических тестовых

материалов, где раскрыта сущность апробации; обзор существующих методов оценки качества тестовых материалов; методики по апробации программно-дидактических тестовых материалов.

Сформулированы цели и задачи апробации. Апробационные исследования проводятся с целью проверки тестовых заданий на соответствие требованиям, предъявляемым к ПДТЗ и отдельным вариантам программно-дидактического теста (ПДТ).

Апробационные исследования позволяют решить следующие задачи:

• установить статистические характеристики апробируемых заданий (трудность, дифференцирующая способность и др.).

• получить экспертные характеристики апробируемых заданий (корректность формулировок, значимость для итогового контроля, соответствие действующим учебникам и др.).

• установить статистические характеристики: апробируемых ПДТ (надежность, распределение трудности заданий, средний первичный балл, корреляционные характеристики и др.).

• получить характеристики апробируемых ПДТ (время выполнения отдельных заданий и теста в целом, качество инструкций, отношение тестируемых к работе и др.).

• получить интегральные оценки качества ПДТЗ.

• выявить проблемные задания, изменить их содержание или нормы трудности.

На основе полученных данных уточняются характеристики ПДТЗ, дорабатываются или отбраковываются задания.

Обозначены этапы и условия проведения апробации.

В процессе выполнения работ проводились научные наблюдения и эксперименты по выявлению и выбору существенных атрибутов аттестационно-оценочных материалов, установлению их смыслов, норм, трудности и отклонений, а также выработке рекомендаций по повышению качества ПДТЗ. Были разработаны инструментальные средства и отработана процедура апробации, в рамках которой были оценены банки программно-дидактических тестовых ситуаций. Проведена работа по коррекции содержания банков тестовых заданий по 60 учебным дисциплинам на основе полученных, при проведении экспериментов, данных. Результаты апробации были использованы при установлении качественных шкал оценок достижений студентов по 46 учебным дисциплинам (утверждены на коллегии Минобразования).

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ И ВЫВОДЫ

В результате выполнения работы были решены научные задачи по разработке методологических правил проектирования и методов оценки качества тестовых заданий.

На основании полученных результатов можно сделать следующие выводы:

1. Проведена стратификация тестовых заданий на основе совокупности наиболее существенных факторов. Выделяются три уровня качественно различных страт ценности композиций ПДТЗ: ТС и КТУ, обеспечивающих сопоставимость результатов оценок уровней учебных достижений тестируемых. Композиции ТС, КТУ, ГЦТУ, принадлежащие конкретной целостности и ценности, рассматриваются как один неразделимый многофакторный объект, которому может быть присуща виртуальная структура, обеспечивающая согласование внешне самостоятельных релевантных признаков без их взаимодействия между собой. Возрастание значимости тестовых утверждений сопряжено с переходом от анализа одного свойства до комплексной оценки качества КТУ и, наконец, до интегральной оценки качества композиции ГЦТУ.

2. Впервые получена система концептуальных правил проектирования содержания композиции программно-дидактических тестовых заданий. Сформулированы принципы композиции — указания по применению в практической деятельности тестологов закономерностей и категорий; система методологических правил проектирования тестовых суждений, — технология реализации принципов композиции в общезначимых правилах и общепризнанных стандартизированных формах представления ПДТЗ. Степень внедрения - методологические правила проектирования программно-дидактических тестовых заданий используются при повышении квалификации преподавателей «Методология и концепция компьютерного адаптивного тестирования», проводимого Московским государственным университетом печати.

3. Проведен системный анализ и классификация существующих моделей оценивания результатов тестирования, и связанные с этими моделями вопросы оценивания системных параметров ПДТЗ. Особое внимание уделено оценке трудности тестового задания, как основного системообразующего параметра ПДТЗ. Приведена классификация показателей трудности тестового задания и различные подходы к ее определению и оцениванию. В общем случае можно сказать, что определение трудности и методы ее оценки зависят от выбранной модели оценивания уровня учебных достижений.

4. Предложен метод корректировки суммарного балла по тесту с учетом вероятности угадывания, приведены значения вероятностей угадывания для различных видов тестовых заданий. Также предложен критерий целесообразности различения частично верных ответов. Предложена методика ранжирования результатов тестовых испытаний с учетом энтропии заданий.

5. Применительно к семантическим шкалам оценки' качества признаков различной природы автором определена процедура шкалирования классификаторов. Предложенная процедура решает вопросы сведения разнородных признаков (классификаторов) ПДТЗ к единому основанию —

синтетической шкале качеств. Шкалирование классификаторов положено в основу комплексной и интегральной оценки качества тестового задания.

6. Определены понятия комплексной и интегральной оценки качества ПДТЗ. Предложена модель и алгоритмы оценивания комплексного и интегративного показателей качества ПДТЗ. На основе декомпозиции качества ПДТЗ в дерево свойств построен комплекс оценочных показателей (классификаторов) качества ПДТЗ. Обоснован выбор основания качества с точки зрения психологии и теории информации, основным выводом чего стало принятие К=9, как верхней границы приемлемого числа уровней интервалов качества. Предложенная система оценивания интегрального качества ПДТЗ позволила отказаться от введения субъективных весовых коэффициентов для классификаторов.

7. В процессе выполнения работ по апробации банков ПДТЗ проводились научные наблюдения и эксперименты по выявлению и выбору существенных атрибутов аттестационно-оценочных материалов, установлению их смыслов, норм, трудности и отклонений, а также выработке рекомендаций по повышению качества ПДТЗ. Построен алгоритм технологического цикла разработки банков ПДТЗ. Разработаны инструментальные средства и отработана процедура апробации, в рамках которой были оценены банки программно-дидактических тестовых ситуаций. Проведена работа по коррекции содержания банков тестовых заданий по 60 учебным дисциплинам на основе полученных, при проведении экспериментов, данных. Результаты апробации были использованы при установлении качественных шкал оценок достижений студентов по 46 учебным дисциплинам. Степень внедрения — банки программно-дидактических тестовых заданий, разработанные с учетом требований, одобренные учебно-методическими объединениями профессионального образования, апробированные и использующиеся в процессе итоговой аттестации студентов. Результаты работы положены в основу отчета при выполнении Государственного контракта №1070 от 22 ноября 2004 года (Федеральная целевая программа «Развитие единой образовательной среды (2001-2005)»), а также внедрены в 7-ми высших учебных заведениях.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Узденов Д.М. Формы мышления в тестологии: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. — Москва, 2004.-с. 106.

2. Узденов Д.М. Эмпирическое и теоретическое знание в теории тестирования: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2004. - с. 107-108.

3. Узденов Д.М., Попова Е.Д. Автоматизация экспертной оценки качества тестовых заданий: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2004. - с. 109-113.

4. Узденов Д.М., Этезов Б.Б. Концепция оценки в теории тестовых проверок: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. — Москва, 2004. — с.114-115.

5. Узденов Д.М., Этезов Б.Б., Тягунова Т.Н. Идеальный объект в тестологии и тестометрии: Сб. мат.: 2-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. — Москва, 2004. — с.116-123.

6. Тягунова Т.Н., Узденов Д.М. Культурологические аспекты в тестологии: Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005. - с.214-216.

7. Узденов Д.М., Семенов И.А. Культурная деятельность в тестологии: Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005. — с.217.

8. Узденов Д.М., Семенов И.А. Общезначимые ценности в тестологии: Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005. - с.218-221.

9. Узденов Д.М., Семенов И.А., Сапарова А.Т. Смысл и значение тестового утверждения: Сб. мат.: 3-я Всеросс.науч.-метод.конф. «Развитие методов и средств компьютерного тестирования» / Моск.гос.ун-т печати. - Москва, 2005. - с.222-230.

10. Узденов Д.М. Корректировка суммарного балла по тесту с учетом вероятности угадывания: Сб. мат.: Международ.науч.-метод.конф. «Управление качеством профессионального образования: от проблемы к системе» / Казанский гос. энергетический ун-т. — Казань 2005. - с.238-239.

11. Васильев В.И., Дроздов В.И., Тягунова Т.Н., Узденов Д.М. К вопросу шкалирования классификаторов: Сб. мат.: 4-я Всеросс.науч.-метод.конф. «Инновационные методы и средства оценки качества образования» / Моск.гос.ун-т печати. - Москва, 2006. — с.68-79.

12. Узденов Д.М. Метод ранжирования результатов тестирования на основе энтропии заданий: Сб. мат.: Международ.науч.-метод.конф. «Экономико-правовые проблемы и перспективы развития уральского региона» / Уральский финансово-юридический институт. — Екатеринбург 2006. - с.494-495.

13. Узденов Д.М. Неопределенность тестового задания: Сб. трудов: 2-я Международ.науч.-практ.конф. «Исследование, разработка и применение высоких технологий в промышленности» / Санкт-Петербург 2006. - с.411-412.

14. Узденов Д.М. Определение уровня трудности задания: Сб. трудов: Международ.науч.-техн.конф. «Диалог общества и власти в образовательном пространстве СНГ» / М., 2006.

Подписано в печать 21.06.06 г. Объем 1.25 п-л- Тираж 100 экз. Заказ № 245/180

Московский государственный университет печати 127500, Москва, ул. Прянишникова, 2а Отпечатано в ИПК МГУП

Оглавление автор диссертации — кандидата технических наук Узденов, Далхат Мухадинович

ВВЕДЕНИЕ. ш

ГЛАВА I. ЭЛЕМЕНТЫ НОРМАТИВНОЙ СИСТЕМЫ ПРОЕКТИРОВАНИЯ W ТЕСТОВЫХ ЗАДАНИЙ.

§ 1.1. Исходные посылки.

§ 1.2. Стратификация тестовых заданий и тестологическая эпистемология.

§ 1.3. Тестовая ситуация.

§ 1.4. Краткое тестовое утверждение.

§ 1.5. Гармонично целостное тестовое утверждение.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Узденов, Далхат Мухадинович

Актуальность работы. Одной из центральных проблем в сфере ♦ образования является объективная и технологичная оценка качества обученности субъектов в условиях проведения массовых проверок, основанных на процедурах компьютерного тестирования. С этой точки зрения создание качественных тестовых материалов предстает как культурно значимый проект, отраженный в Концепции модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ (приказ МО РФ №393 от 11.02.02). Ф Для успешного решения данной задачи необходимо объяснить как устроены те «фильтры», которые позволяют субъекту проектировать тестовые утверждения заданного уровня качества, как происходит установление аксиом и выдвижение научных гипотез о закономерных связях процессов мышления в тестологии. До сих пор не так много исследователей подходит вплотную к решению этой задачи. Многие разработчики тестовых материалов до сих пор считают, что эта проблематика не является актуальной, поскольку ее решение будет ограничивать идею формирования ^ личного содержания тестовых утверждений. Однако деятельность при конструировании тестовых утверждений без учета правил - источник создания псевдотестов.

Создание системы методологических правил проектирования гармонично целостных композиций тестовых утверждений способно стимулировать разработку корректных тестовых утверждений, но этого еще не достаточно для того, чтобы применять их в практической деятельности. Необходимо еще установить тестологические характеристики каждой тестовой ситуации. Господствующая ныне в теории тестов логика тождества - в отрыве от логики аналогий - не годится для того, чтобы объяснить и понять механизм оценки качества тестовых заданий как многомерных объектов нечисловой природы. Эта актуальная задача также решается автором в настоящей диссертационной работе.