Теория и методы оценки эффективности систем обучения коллективного пользования

Хлебников, Владимир Алексеевич

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Теория и методы оценки эффективности систем обучения коллективного пользования

доктора физико-математических наук: Хлебников, Владимир Алексеевич
город: Москва
год: 2006
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Теория и методы оценки эффективности систем обучения коллективного пользования»

Оглавление автор диссертации — доктора физико-математических наук Хлебников, Владимир Алексеевич

Введение. Краткий исторический обзор развития педагогического тестирования в России

Глава 1. Основные математические модели оценивания результатов тестирования

1.1. Основная логистическая модель Раша.

1.2. Двухпараметрическая модель Бирнбаума.

1.3. Модель с промежуточными категориями выполнения заданий.

1.3.1. Структура контрольно-измерительных материалов ЕГЭ

1.3.2. Теоретические основы модели.

Глава 2. Обоснование возможности объективного оценивания подготовленности испытуемых и трудности заданий

2.1. Шкала с единицей измерения в один логит.

2.2. Сепарабельность оценок.

2.3. Оценивание точности результатов тестирования

2.4. Основные гипотезы теории моделирования и параметризации тестирования

Глава 3. Методы оценки латентных параметров

3.1. Простейший метод параметризации.

3.2. Коррекция разномасштабности шкал на основе гипотезы о нормальном распределении.

3.3. Метод моментов.

3.4. Метод наибольшего правдоподобия.

Глава 4. Калибровка тестовых заданий методом наименьших квадратов

4.1. Вывод уравнений связи и взвешенных уравнений измерений

4.2. Точность исходных измерений

4.3. Обобщение на случай совместной обработки нескольких вариантов теста.

4.4. Структура матрицы коэффициентов уравнений связи одного варианта теста

4.5. Выравнивание на единую шкалу и условный экстремум суммы квадратов поправок в результаты исходных измерений.

4.6. Обработка каждого варианта теста по отдельности

4.7. Поправки за счет преобразования на единую шкалу.

4.8. Точность конечных результатов

4.9. Выводы и практические рекомендации

Глава 5. Сравнительный анализ тестовых заданий и тестов в целом

5.1. Вес тестового задания и теста в целом.

5.2. Оценка информационного вклада.

5.3. Характеристическая функция теста при равномерном распределении трудностей заданий теста.

5.4. Характеристическая функция теста при нормальном распределении трудностей заданий теста.

5.5. Сравнение ХФТ при различных распределениях трудностей заданий теста.

Глава 6. Организационные проблемы объективной оценки учебных достижений учащихся в России

6.1. Общие требования к системе оценки учебных достижений (СОУД) (далее - Система).

6.2. Организационная структура Системы.

6.3. Оценивание учебных достижений учащихся общеобразовательных учреждений

6.3.1. Оценивание текущего уровня подготовленности

6.3.2. Оценивание учебных достижений на итоговой аттестации.

6.4. Оценивание учебных достижений поступающих в образовательные учреждения среднего и высшего профессионального образования (конкурсный отбор).

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Хлебников, Владимир Алексеевич

Повышение качества образования и профессионального обучения является необходимым условием для обеспечения экономического роста государства, что в конечном счете должно приводить к росту благосостояния граждан.

Оценка качества образования основана, прежде всего, на оценке степени подготовленности обучающихся. Осуществлять оценку подготовленности учащихся необходимо объективными и надежными методами, исключающими субъективизм.

Результаты независимой и объективной оценки учебных достижений можно использовать для оценки работы образовательных учреждений, для итоговой аттестации, при проведении конкурсов на поступление в образовательные учреждения следующей ступени образования и при решении вопроса о допуске к работе на специальной технике массового использования.

При проведении таких оценок необходимо обеспечить единые (стандартные) требования, в рамках конкретной проблемной ориентации, к процедуре испытаний, к используемым измерительным материалам (тестам) и к процедуре обработки результатов.

Такую стандартизированную процедуру оценки учебных достижений будем в дальнейшем называть педагогическим тестированием систем обучения коллективного пользования.

В России в настоящее время нашли развитие, в основном, только две широкомасштабные процедуры массового тестирования учащихся - централизованное тестирование и единый государственный экзамен. Суммарное количество тестирований выпускников общеобразовательных учреждений составляет свыше 2,5 миллионов в год.

Однако при всей значимости результатов и массовости указанных процедур в обществе еще нет однозначного отношения к тестовым технологиям.

Чаще всего это связано с непониманием того, что стандартизированные процедуры и материалы (тесты) представляют собой измерительные инструменты, имеющие свои области (зоны) наилучшего использования, в которых имеется меньшая погрешность по сравнению с погрешностью, получаемой при использовании других методов оценивания.

Любой тест имеет свою область применения не только по содержанию предмета, но также и по диапазону измеряемых величин. Оценивать учебные достижения элитных и коррекционных учащихся надо с использованием различных тестов.

Тесты и .тестовые методы используются в психологии, педагогике, медицине, во многих технических областях знаний (в вычислительной технике, атомной энергетике, автомобильной промышленности, в оборонных отраслях и т.д.)

В каждой из этих областей знаний, и даже различных направлениях одной и той же области знаний, определение термина «тест» может существенно отличаться от определения в другой области знаний или другого направления одной и той же области знаний.

В настоящее время к слову «тест» могут быть отнесены: отдельные задания, системы заданий, компьютерные программы, образцы каких-то изделий с известными параметрами, реактивы, типовые процессы и т.д. и т.п.

В связи с этим попытка дать универсальное определение термину «тест» затруднительна.

В общем виде можно говорить только о методе теста, под которым понимается стандартизованный или типовой метод исследования, испытания, диагностики, проверки, пробы и т.д. каких-то многих однотипных объектов. При этом в методе тестов, как правило, должны использоваться одни и те же инструментарии (образцы, задания, реактивы и т.д.), методы обработки результатов, одна и та же организация и процедура проведения исследования, одинаковые условия и т.д.

Наиболее общим определением слова «тест», на наш взгляд, является: тест - стандартизированное средство или процесс, с помощью которого определяются объективные свойства исследуемого объекта.

Определение термина - это информация, позволяющее отличить определяемый объект от всех других (неопределяемых) объектов.

Слово «Тест» как следует из его перевода с английского [89] не имеет однозначного смысла и в связи с этим может иметь много определений.

Для того, чтобы лучше донести смысл любой научной работы важно выбрать и дать четкое определение основному термину или основным терминам, а затем всем другим терминам, используемым в работе.

Основной термин - термин, дающий смысл или значение того, о чем и что говорится в суждении, теории или в научной работе.

Учитывая важность терминологии при проведении научных исследований и в связи с тем, что без четко определенных терминов результаты работы могут быть неверно поняты или не поняты вообще, автором подробно были исследованы проблемы построения терминологической системы в педагогическом тестировании [72].

Были проанализированы [72] возможные подходы построения терминологической системы педагогического тестирования и в качестве основных терминов такой системы были выбраны термины «педагогический тест», «педагогическое тестирование» и «тестовое задание».

Определение этих основных терминов разрабатывались под научным руководством автора с использованием Международного стандарта ИСО

704-87 «Принципы и методы терминологии» [26] и Рекомендации Госстандарта РФ Р 50-603-1-89. «Разработка стандартов на термины и определения» [61] и [58].

На основании этих рекомендаций определения всех терминов строились на одном или в крайнем случае нескольких существенных признаках с использованием «принципа идеализации» существенных признаков.

Суть «принципа идеализации» состоит в том, что выбранный существенный признак идеализируется, т.е. или преувеличивается, или приуменьшается, а все остальные признаки объекта при этом считаются как бы не существующими.

Такой принцип делает термин максимально понятным при проведении научной работы, так как термин в этом случае будет максимально увязан с решаемой проблемой, задачей или целью работы.

При этом возможно, что при решении другой проблемы, другой задачи определение термина может отличаться, так как для решения этих проблем или задач существенные признаки могут быть другими.

В данной работе в качестве основных ключевых терминов используются:

• педагогический тест - система специально подобранных проверочных заданий, составленных по специальной форме, позволяющая количественно оценить учебные достижения человека в одной или нескольких областях знаний;

• педагогическое тестирование - совокупность организационных и методических мероприятий, использующая педагогические тесты и предназначенная для объективной оценки учебных достижений учащихся. При этом используются стандартизированные задания и создаются максимально единообразные условия проведения тестирования, а также применяются единые методы обработки результатов;

• тестовое задание - минимальная содержательно законченная составляющая единица педагогического теста в виде проверочного задания в тестовой форме.

Инструкция по выполнению задания и система оценки могут быть составлены как для одного конкретного задания, так и для группы заданий теста.

Развитие метода теста в России целиком определено развитием системы образования и государства в целом.

Внутренняя политика государства в период царствования последних императоров Александра II, Александра III, Николая II была достаточно противоречивой.

С одной стороны ряд военных конфликтов России, например, Крымская война 1854-1855 гг., русско-турецкая война 1877-1878 гг. и особенно русско-японская война 1904-1905 гг. показали, что Россия значительно отстает в промышленном развитии от западноевропейских стран и Японии.

Страна нуждалась в срочной перестройке и модернизации как промышленного, так и сельскохозяйственного производства.

Царское правительство в сферах промышленного и сельскохозяйственного производства проводит ряд масштабных реформ по капиталистической модернизации промышленности, проводит отмену крепостного права и столыпинские реформы в сельском хозяйстве.

Реформы стимулируют научно-технический прогресс и требуют увеличения образованных и высококвалифицированных кадров.

Для удовлетворения этих потребностей правительство принимает ряд мер по расширению сети различных образовательных учреждений.

Эти меры дали определенный результат. Так, например, число грамотных людей (умеющих писать, читать, считать) с 7% в шестидесятые годы XIX века увеличилось до 30% в начале XX века. Намного возросло количество средних и высших учебных учреждений.

Но с другой стороны проводилась политика различных ограничений, препятствий и сдерживания процесса получения образования для подавляющего большинства населения страны из низших сословий общества.

Правительство боялось образованных людей из этих сословий. Об этом прямо и не двусмысленно высказался шеф жандармов А.Х. Бенкендорф, который писал, что правительство «не должно слишком торопиться с просвещением, чтобы народ не стал по кругу своих понятий в уровень с монархами» и не посягнул тогда на послабление их власти [55].

Практически так же формулирует цели и задачи среднего образования в письме к царю, обер-прокурор Священного синода К.П. Победоносцев, который пишет, что средние школы должны быть такими, чтобы «люди низшего класса могли получить нехитрое, но солидное образование, нужное для жизни, а не для науки» [55].

Проблему нехватки квалифицированных кадров в России решили несколько иначе, чем в западной Европе или в США. Вместо того, чтобы растить своих специалистов, проблема кадров решалась путем приглашения иностранных специалистов из той же западной Европы.

Возможность привлечения иностранных специалистов и стремление царских властей «не .слишком торопиться с просвещением.» низших сословий и давать им только «нехитрое . образование» делало в России проблему отбора лучших учеников из всех слоев общества не актуальной, а метод тестового отбора не нужным.

Иначе начало развиваться педагогическое тестирование в передовых странах Запада. Потребности, практики, в частности активное внедрение сложных механизмов в промышленное производство, требовали подготовки образованных, знающих специалистов. С пониманием этого росло и осознание необходимости создания государственной массовой системы образования с обязательным контролем качества обучения. В 1900 г. в

США был создан Комитет по проверке знаний абитуриентов колледжей [3, стр. 16, 17].

В связи с этим ряд американских ученых, используя опыт и наработки Д.А. Райса, занялись разработкой и применением тестов для измерения учебных достижений учеников, успешности работы учителей, сравнительной оценки методов и методик преподавания, организации учебно-педагогической деятельности.

Широкое и повсеместное внедрение тестов в систему образования США, связано с именем профессора Колумбийского университета Э.А. Торндайка [82].

Многие специалисты считают Э.А. Торндайка основоположником теории педагогических тестов.

Под руководством и при непосредственном участии Э.А. Торндайка его ученики и последователи за шесть лет в период с 1909 до 1915 г. разработали и опубликовали тесты по всем основным школьным предметам. Тесты содержали необходимый методический материал и были снабжены «нормами», на которые проводящий тестирование мог ориентироваться при оценке учебных достижений испытуемых.

В городах США были организованы специальные бюро, в задачу которых входило установление городских стандартов тестирования (какие серии тестов внедрять в городские школы в очередном году), а также помощь учителям при обработке полученных результатов экзаменов. Инициативные окружные инспекторы вводили тестирование и во многих сельских школах. Результаты, полученные в ходе испытаний, становились предметом внимательного служебного изучения. В измерительные процедуры активно вовлекались и ученики американских школ. Они занимались взаимопроверкой выполненных работ, чертили диаграммы своих поэтапных достижений, что повышало мотивацию к учебе.

В ряде европейских странах использовались американские тесты. В первую очередь тесты по арифметике, ибо они универсальны для любой страны, не нуждаются в переводе (за исключением текста инструкции). Каждый американский тест содержал небольшое упражнение, которое знакомило учащихся с характером предстоящего испытания. Упражнение вводило испытуемых в детали предстоящего испытания, что позволяло преодолеть чувство неизвестности, приобрести минимальные навыки в работе с тестовыми заданиями, обрести определенную уверенность в возможности успешно выполнить сходные с упражнением задания теста. В современной тестологии существует понятие «тестовой искушенности», под которой подразумевается, в первую очередь, индивидуальный опыт испытуемого (обследуемого), приобретенный в процессе неоднократною выполнения различных тестов.

Ф. Гальтон изобрел целый ряд специальных приборов для лабораторных исследований физических способностей, физиологических возможностей и психических свойств человеческого организма, а также ряд оригинальных научных методик. Например, им были разработаны методики для изучения ассоциаций идей, образный памяти, так называемый метод близнецов, позволяющий выяснить соотношение между наследственностью и внешними влияниями, статистические методы определения корреляций между различными физическими и психическими свойствами индивидов. Этот метод стал в последствии основой метода факторного анализа. Им были также разработаны основные идеи создания и использования тестов для определения индивидуальных различий людей.

Важным вкладом Гальтона в развитие теории тестов было определение трех основных принципов:

• Применение серии одинаковых испытаний к большому количеству испытуемых.

• Статистическая обработка результатов.

• Выделение эталонов оценки.

Эти принципы используются и по сей день. По результатам серий испытаний получаются различного вида нормы для оценки результатов тестирования. Все современные тесты построены на основе статистической теории измерений, а идея эталона оценки лежит в основе определения тестов как стандартизованного инструмента.

Дж. Кеттелл достаточно подробно разработал и описал методы статистической обработки результатов тестирования, которые в последствии легли в основу современных методов статистического анализа и моделирования.

В советской России власть, в лице Наркомпроса, вначале не препятствовала, а затем начала прямо поддерживать внедрение в учебный процесс тестовых технологий, т.к., с одной стороны, накопленный опыт обучения студентов вузов, не имевших необходимой для высшей школы подготовки (отмена экзаменов, аттестации, прием в студенты без предъявлений аттестатов и т.д.), оказался не эффективным и значительно снизил качество подготовки специалистов с высшим образованием, а также повысил затраты на их подготовку.

Тестирование значительно облегчало Наркомпросу контроль как уровня образования в каждой школе, так и контроль качества преподавания учебных дисциплин в каждой из школ;

Народное хозяйство страны в лице госпредприятий и частных предприятий было заинтересовано в получении в самые кратчайшие сроки качественно подготовленных специалистов, а в ряде случаев просто образованных работников, уровень которых был не ниже требуемого;

В условиях НЭПа при оживлении промышленного и сельскохозяйственного производства спрос на специалистов и просто грамотных людей возрос многократно. Причем частные предприниматели, в отличии от государственных предприятий, готовы были принимать на работу специалистов любой политической ориентации и т.д. В связи с этим в России начинается активное освоение и внедрение тестовых методов в процесс школьного образования.

Однако процесс довольно успешного развития тестирования в педагогике был остановлен, и тестирование было полностью исключено из педагогической практики в 1936 г. Постановлением ЦКВКП(б) «О педологических извращениях в системе Наркомпроса» от 04 июля 1936 года.

Постановление явилось как бы последней точкой в цепи целого ряда причин, предопределивших «изгнание» тестов из образовательного процесса.

В конце XIX и начале XX века передовые российские ученые были знакомы с тестовым методом и были в курсе разработок западных ученых в этом направлении.

Ряд российских ученых проходил на западе стажировку в научных лабораториях, активно использовавших в качестве одного из основных тестовый метод.

В открытой в 1879 г. в г. Лейпциге психологической лаборатории немецкого ученого психолога В. Вундта проходили стажировку российские ученые В.М. Бехтерев, H.H. Ланге, А.П. Нечаев, В.Ф. Чиж,

Тестовый метод в России имел ограниченное применение, причем в основном среди ученых энтузиастов при проведении психологических и психо-педагогических исследований, которые проводились в сугубо научных целях.

В педагогике для контроля знаний, умений, навыков тестовый метод никого из ведущих ученых педагогов не заинтересовал и ни в одном образовательном учреждении этот метод для контроля знаний не использовался.

В СССР учебные достижения учащихся в образовании оценивались в соответствии с системой оценок (отметок) установленных совместным постановлением Совета народных комиссаров (СНК) СССР и ЦК ВКП(б) «Об организации учебной работы и внутреннем распорядке в начальной, неполной средней и средней школы» от 23 сентября 1935 г. (ЦК в резолюциях т. 6 стр. 263-266) и Постановлением СНК СССР и ЦК ВКП(б) «О работе высших учебных заведений и о руководстве высшей школой» от 23 июня 1930 г.

Эти постановления и последовавшее за ними Постановление ЦК ВКП(б) «О педологических извращениях в системе Наркомпроса» от 04.07.1936 г. полностью исключали другие методики оценки учебных достижений учащихся.

Введенная в 1935-1936 гг. система оценки учебных достижений в образовательных учреждениях всех видов и типов действует до настоящего времени без каких-либо существенных изменений.

Упомянутые выше постановления были приняты ЦК ВКП(б), СНК СССР не потому, что тестовый метод рассматривался этими инстанциями как принципиально не приемлемый.

К высшей и средней школе, к специалистам с высшим и средним специальным образованием у партийных руководителей было всегда двойственное отношение.

С одной стороны, они прекрасно понимали, что без этой категории специалистов невозможен научно-технический прогресс, невозможно любое производство, а тем более его интенсификация, невозможно вообще развитие страны и т.д. Руководство партии и советское правительство постоянно следит и принимает меры по расширению сети вузов и техникумов, совершенствованию учебного процесса, улучшению их материально технического обеспечения и т.д.

С другой стороны, именно в этой категории населения наблюдается наибольшее количество людей, протестно настроенных и критически относящихся к мероприятиям, проводимых партией и правительством.

Потребность науки и промышленности в специалистах с высшим и средним техническим образованием ежегодно рассчитывается с перспективой на пять лет с учетом потребностей каждой конкретной территории и промышленного района.

Для снижения возможности критического настроя в студенческой среде принимается решение о разновозрастном обучении в вузах и техникумах с приоритетом обучения лиц, поступающих в вуз или техникум непосредственно с производства.

В 1957 г. были утверждены новые правила приема в вузы и техникумы, по которым преимуществами при приеме пользовались лица, имеющие стаж практической работы непосредственно на производстве на рабочих местах и в армии не менее 2-х лет.

Для такой молодежи, помимо этой льготы, при институтах или непосредственно на предприятиях создавалась сеть вечерних подготовительных курсов.

Очевидно, что при неравных условиях приема в вузы и техникумы, когда выпускники школ поступают в результате конкурсного отбора, а производственники и льготники вне конкурса, тестовые методы отбора в вузы лучших абитуриентов были не нужны.

Несмотря на отсутствие видимых признаков заинтересованности и поддержки со стороны государства и партийных органов, в СССР в конце 50-х годов сложились некоторые предпосылки возврата тестовых технологий в отдельные научные направления.

К этим предпосылкам относится:

Разрушение «железного занавеса» и налаживание международных отношений со странами Запада;

Появление новых научных направлений и новых технических устройств, при работе которых использовались тестовые технологии.

Одним из таких направлений являлось разработка, создание и развитие электронно-вычислительной техники.

Во второй половине 50-х годов появилось и было освоено серийное производство электронно-вычислительных машин (ЭВМ), таких как «БЭСМ», «Стрела», «Урал» и т.д.

Появление ЭВМ произвело настоящий переворот в науке.

Если раньше наука совершенствовала технику, то с появлением ЭВМ, техника стала видоизменять деятельность ученых, модифицируя содержание и методы научных исследований.

С появлением ЭВМ в научный лексикон стало прочно входить понятие «тест». С тестовых программ (программы, выявляющие сбои в работе ЭВМ из-за возможных отказов многочисленных и для первых образцов не достаточно надежных блоков и элементов ЭВМ) начиналась и заканчивалась каждая рабочая смена,

Появление ЭВМ делало возможным значительно упростить процедуры обработки больших массивов статистических данных, формализовать и стандартизовать сбор информации, что необходимо при обработке результатов тестирования большого числа учащихся,

Важной предпосылкой являлся поиск вузами новых методов и средств интенсификации и улучшения качества учебного процесса.

Как уже упоминалось выше, основной контингент студентов составляли производственники, показавшие на приемных экзаменах в основном не высокий или средний уровень знаний.

Между тем от вузов народное хозяйство требовало специалистов достаточно высокого уровня подготовки. При этом сроки обучения были заранее заданы, а поток новых знаний (новых научных направлений, новых технических устройств, новых методов и методик) постоянно возрастал. Уровень подготовки преподавателей в то время так же может характеризоваться как средний.

Решение подобной задачи было возможно только за счет четкого анализа и отбора необходимого учебного материала, использования в учебном процессе новейших технических средств и организации объективного контроля усвоения учебного материала.

Были отменены льготы для производственников и восстановлен прием в вузы и техникумы по конкурсу. Вузы и техникумы теперь сами могли разрабатывать свои учебные планы и выбирать методы преподавания, методы текущего контроля и технические средства, необходимые в учебном процессе.

В вузах на базе ЭВМ стали появляться различные обучающие системы и автоматизированные системы управления образовательным процессом, такие как автоматизированные системы управления (АСУ) различного назначения, информационно-вычислительные системы (ИВС), автоматизированные системы проектирования (АСП), автоматизированные системы обработки информации (АИС), системы самостоятельной работы студента (СРС), автоматизированные обучающие комплексы (АОК), контрольно обучающие комплексы (КОК) и т.д. и т.п.

Внедрение таких автоматизированных комплексов позволило, с одной стороны, преподавателям, составляя программы (или исходные данные для составления программы), четко структурировать преподаваемый предмет, выделять в нем главное и отбросить второстепенное, избавиться от рутинной работы, связанной, например, с проверкой контрольных и лабораторных работ, доверить ряд контрольных операций ЭВМ. С другой стороны у студентов при общении с ЭВМ появилось больше возможностей получить ответы на интересующие их вопросы. Они могли проверить свою готовность к экзаменам или зачетам, быстрее проводить нужные расчеты при подготовке курсовых работ и дипломных проектов и т.д.

Разработка проблем, связанных с оценкой качества знаний, является одной из важнейших задач педагогической науки. В конце 60-х и начале 70-х годов это направление педагогики оформилось в самостоятельное направление - педагогическую квалиметрию.

Педагогическая квалиметрия — это объединение в единый научный предмет проблем, связанных с разработкой методов измерения важнейших педагогических характеристик, одной из которых является оценка учебных достижений обучаемого.

Вопросами квалиметрии в это время активно начинают заниматься такие ведущие вузы страны, как МВТУ им. Баумана, Киевский и Рижский политехнические институты, Московский государственный университет им. Ломоносова, Московский инженерно-физический институт, Московский институт инженеров транспорта, Ленинградский электротехнический институт, Московский педагогический институт им. Ленина, Белорусский университет и ряд других вузов страны.

Первый путь - это рубежный и итоговый контроль соответствующей учебной дисциплины, когда преподаватель вуза на основании своих методических разработок составляет контрольные задания, как правило, для последующего контроля и самоконтроля знаний студентов с применением ЭВМ.

Второй путь - проведение массовых обследований, изучений качества знаний, массовых контрольных работ, изучение остаточных знаний, экспериментальных контрольных работ и т.д.

Естественно, что при проведении теоретических исследований и практических разработок в области педагогической квалиметрии исследователи все чаще и чаще обращались к опыту западных стран в области тестирования.

При этом, если первый путь развития квалиметрии на начальных этапах использовал только отдельные элементы тестовых технологий, то при проведении массовых обследований, и других массовых квалиметрических мероприятий тестовые технологии являлись основным инструментом.

В Постановлении ЦК КПСС и СМ СССР «О совершенствовании высшего образования» 1972 г. уже ставилась задача развернуть в вузах работу по применению автоматизированных систем контроля, в том числе и знаний студентов. В результате во многих вузах появились АСУ-ВУЗ с подсистемами АСУ-Прием.

В подсистемах АСУ-Прием, во-первых, обязательно структурировались и переводились в машинную форму знания и умения, которыми должен обладать абитуриент вуза. В машинную форму переводились требования к абитуриентам и способы отбора лучших из них для зачисления в студенты.

В этот период появляется много работ, посвященных математическим вопросам педагогических измерений, в которых обобщаются результаты разработок и исследований в области применения различных типов и видов тестов.

Особо следует отметить работы АванесоваВ.С., Володина Б.В., и Ко-розу В.И., которые уже в 1976 г в МИФИ предприняли попытку разработки новых тестов для оценки знаний студентов.

Эти авторы осуществили переход от оценки знаний с помощью контрольных работ с элементами тестовых технологий к методу тестового контроля.

Однако при этом следует отметить, что измерения знаний учащихся с помощью контрольных работ с элементами тестовых технологий, в том числе и массовых, в 60-70 годы имело ограниченный характер. Тестировались в вузах только относительно небольшие группы студентов. Выборки массового тестирования составляли всего сотни учащихся и в лучшем случае доводились до нескольких тысяч.

Все работы в этот период носили скорее локальный научный или методический характер и не выливались в постоянно действующую систему оценки знаний учащихся. Тестирование не становилось по-настоящему массовой процедурой.

Следующим толчком, послужившим причиной дальнейшего развития тестирования, стали изменения в российском обществе и его дальнейшая демократизация.

Активизация хозрасчетной и договорной деятельности вузов явилась главной причиной организации действительно массовой процедуры контроля знаний абитуриентов в виде централизованного тестирования.

Постановление ЦК КПСС и СМ СССР «О мерах по коренному улучшению качества подготовки и использования специалистов с высшим образованием в народном хозяйстве» 1987 г. и принятый позднее в 1999 г. закон «Об образовании», еще больше расширили и углубили демократические преобразования в образовании. Была разрешена вариативность образовательных программ, появились не государственные образовательные учреждения, граждане России получили возможность обучаться за границей, были узаконены различные формы образования, такие как домашнее, дистанционное, экстернат и т.д., изменились формы финансирования образовательных учреждений и т.д.

Это вплотную поставило вопрос о необходимости определения единого для всей страны уровня знаний, которыми должен обладать человек, завершивший определенную образовательную ступень.

Возникла острая необходимость создания структуры, которая могла бы беспристрастно и независимо проводить оценку знаний абитуриентов.

Для создания такой структуры в стране к концу 80-х годов сложились все необходимые предпосылки, в частности такие как: заинтересованность выпускников школ в авторитетной и независимой структуре, которая определяла учебные достижения учащихся; заинтересованность вузов и техникумов в квалифицированной и объективной оценке учебных достижений абитуриентов; потребность органов управления образованием федерального, регионального и муниципального уровней знать о состоянии образования в подведомственных учреждениях; заинтересованность администрации и преподавателей школ в независимой и объективной оценке своей работы; доверие учащихся и их родителей к результатам независимой и объективной оценки учебных достижений; заинтересованность государства, т.к. организуемый независимый и объективный контроль знаний выпускников требовал минимальных финансовых затрат.

В 1989 г. в Московском педагогическом государственном институте им. Ленина (МГПИ) была создана хозрасчетная лаборатория тестирования учащейся молодежи.

Практическое использование тестовых методов в российском образовании было разрешено. Вопросам финансирования и материально-технического обеспечения деятельности лаборатории необходимого внимания не уделялось. Предполагалось, что в новых экономических условиях система тестирования должна была сама себя всем обеспечивать.

Помимо отсутствия финансирования, у структуры, проводившей тестирование, не было кадров и опыта. Наибольшая проблема состояла в разработке качественных тестов. Строго говоря, разрабатываемые опросники только внешне походили на тесты. На самом деле использовались задания с неизвестными свойствами и измеряли такие тесты неизвестно что.

Научного и методического руководства над процедурой не было никакого.

Тем не менее, число участников тестирования из года в год медленно, но неуклонно росло. Во многом этому способствовало затруднительное положение, в котором находились Российские вузы в начале 90-х годов.

В феврале 1995 года Государственный комитет по высшему образованию (Госкомвуз) принял решение о создании на базе лаборатории тестирования учащейся молодежи Центра тестирования выпускников общеобразовательных учреждений России при Московском педагогическом государственном университете (MlИ У). Указанный Центр имел статус лаборатории научно-исследовательской части Mili У.

В 1996 г. Госкомвуз издал приказ от 29.12.1996 г. №537, в котором четко и однозначно определил, что участие в централизованном тестировании является добровольным как для школьников, так и для образовательных учреждений. Результаты централизованного тестирования по желанию учащихся и по решению образовательных учреждений могут засчи-тываться в школах в качестве оценок итоговой аттестации и в вузах в качестве оценок вступительных испытаний. Приказ дал резкий толчок развитию тестовой технологии в России.

В 2000 г. создается юридическое лицо - государственное учреждение «Центр тестирования Министерства образования Российской Федерации», которое в 2004 г. переименовывается в федеральное государственное учреждение «Федеральный центр тестирования».

Накопленный опыт по разработке гестов и проведению тестирования позволил значительно улучшить качество массового тестирования. Число участников тестирования с каждым годом возрастало. Все большее число вузов добровольно принимали решение учитывать результаты централизованного тестирования в качестве оценок вступительных испытаний. В 2001 г. число участников централизованного тестирования превысило один миллион. Около четырехсот Российских вузов принимали результаты централизованного тестирования в качестве оценок вступительных испытаний.

В июле 2000 г. было объявлено, а в 2001 г. впервые проведен эксперимент по введению в России единого государственного экзамена (ЕГЭ). Было решено проводить ЕГЭ в тестовой форме.

Основным исполнителем ЕГЭ становится Центр тестирования Министерства образования России, который осуществляет организационно-технологическое обеспечение ЕГЭ. В его функции входит разработка и утверждение инструкций для выполнения работ на всех этапах ЕГЭ, тиражирование и рассылка экзаменационных материалов, сбор и обработка информации о результатах ЕГЭ, шкалирование результатов и распечатка свидетельств с результатами ЕГЭ.

Центр тестирования предложил уникальную технологию из трех бланков со штрих-кодами, два из которых являются анонимными. Три бланка запечатываются вместе с тестом в прозрачный пластиковый пакет. Штрих-коды находящихся в пакете бланков ответов до отправки пользова-телеям сканируются и распознаются в специальной базе данных Центра тестирования. После экзамена заполненные бланки уходят на обработку в разные места и раздельно обрабатываются. Электронные файлы с информацией с бланков по каналам INTERNET передаются в Центр тестирования. Информация объединяется по базе данных штрих-кодов и обрабатывается. Указанная технология позволила резко повысить информационную безопасность ЕГЭ.

Федеральный центр тестирования, помимо большой практической работы, проводит научные исследования по совершенствованию методов обработки результатов широкомасштабных процедур тестирования. Ежегодно, начиная с 1999 г. проводятся Всероссийские научно-методические конференции «Развитие тестовых технологий в России». Издается единственный в стране научный журнал «Вопросы тестирования в образовании». Систематически публикуются научные статьи и монографии.

Кроме данного введения, работа состоит из шести глав и заключения.

• Во введении дан краткий исторический обзор развития педагогического тестирования в России. Показано, что, в связи с использованием научных методов ТМПТ, привлекательность и массовость использования тестовых технологий в нашей стране возрастает с каждым годом. Центральную роль в этом процессе играет Федеральный центр тестирования.

• В первой главе описаны те математические модели, которые, по мнению автора, являются наиболее подходящими для проведения широкомасштабных процедур оценки учебных достижений учащихся (централизованного тестирования (ЦТ) и единого государственного экзамена (ЕГЭ)) в России. Особая роль отводится основной логистической модели Раша и ее политомическому обобщению на случай промежуточных категорий выполнения тестовых заданий.

• Вторая глава теоретически обосновывает возможность такого оценивания уровня подготовленности испытуемых, которое не зависит от индивидуальных свойств используемого теста. Именно это положение составляет основу требуемой объективности. Показано, что уровень трудности заданий, в свою очередь, можно объективно оценить вне зависимости от того контингента испытуемых, по результатам тестирования которых трудности заданий выведены. Это необходимо для составления банка тестовых заданий с объективными характеристиками. Показана возможность оценить точность конечных результатов тестирования в обычном смысле теории измерений, строить доверительные интервалы, оценивать надежность тестирования и извлекать другую полезную информацию известными методами математической статистики. Отмечены основные гипотезы ТМПТ.

Глава 3 содержит описание основных методов оценивания параметров тестирования - уровня подготовленности испытуемых и уровня трудности тестовых заданий. Впервые в отечественнойлитературе даны соответствующие теоретические обоснования. В частности, показано, что в рамках основной логистической модели Раша метод моментов по существу совпадает с методом наибольшего правдоподобия. Отмечено, что для вывода уравнения наибольшего правдоподобия требуется справедливость гипотезы о независимости в совокупности ответов испытуемого на тестовые задания. При выводе того же уравнения методом моментов требование о независимости не возникает.

В главе 4 разработана методика калибровки тестовых заданий в терминах классической теории оценивания параметров. Мы считаем этот метод наиболее методически прозрачным при сохранении полной теоретической строгости. Здесь же приведено строгое решение методом наименьших квадратов проблемы выравнивания результатов тестирования по различным вариантам теста на единую метрическую шкалу.

Пятая глава посвящена методам сравнения тестовых заданий и тестов в целом и также содержит оригинальные результаты автора. В частности, по-видимому, впервые сформулированы понятия веса одного тестового задания и теста в целом в стандартных терминах математической статистики и указаны формулы для соответствующих вычислений. Показано, что количество (фишеровской) информации относительно уровня подготовленности испытуемого, содержащееся в одном тестовом задании, численно совпадает с весом этого задания, вычисленном при единичной дисперсии единицы веса. В общем случае вес тестового задания прямо пропорционален количеству информации, содержащемуся в этом задании. Поэтому все результаты относительно весов заданий и теста в целом справедливы и в терминах (фишеровской ) информации. Развито понятие характеристической функции теста (ХФТ). В частности, выведены аналитические выражения ХФТ при определенных распределениях трудностей тестовых заданий. Подчеркивается, что возможность реально оценить вклад каждого тестового задания вне зависимости от наличия информации о других тестовых заданиях обоснована только в рамках ТМПТ и не может быть реализована при работе вне этой теории.

• Для практической реализации всех описанных теоретических положений особое значение имеет содержание главы 6, посвященной организационным проблемам массового тестирования в общероссийском масштабе. Автор имеет десятилетний опыт организации и проведения централизованного массового тестирования школьников почти всех регионов России и пятилетний опыт осуществления эксперимента по Единому государственному экзамену.

• Заключение подводит итоги представленной работы.

• Приложение содержит статистический материал, полученный на основе широкомасштабных процедур (централизованного тестирования и ЕГЭ).

Актуальность диссертации. Развитие рыночной экономики обусловливает наличие жесткой конкуренции производимых товаров и услуг. Качество оказываемых услуг в значительной степени определяется квалификацией кадров, которые эти услуги оказывают. Эмпирический способ определения квалификации кадров требует значительных затрат времени и средств. Убытки предприятий от нерационального использования кадров негативно сказываются на их экономических показателях.

Убытки могут быть вызваны нерациональными действиями работников, занимающих должности, требующих квалификацию выше той, которую работники уже имеют. В таком случае велика возможность принятия неправильных решений, вызывающих непредсказуемые убытки. С другой стороны, нежелательна недооценка кадров, в результате которой перспективный специалист исполняет обязанности, требующие меньшей квалификации, чем та, которую он имеет. При этом функционирование осуществляется менее рационально, упуская возможную выгоду.

Кроме производственной сферы, рациональное использование работников (специалистов) исключительно важно в таких нематериальных сферах, как образование, медицина, оборона и т.п. Значимость принимаемых решений в указанных сферах полностью исключает ошибки или нерациональные действия. К исполнению обязанностей должны допускаться специалисты, уровень квалификации (знаний, умений, навыков) которых исключает ошибочные или нерациональные действия.

Важно отметить, что в различных сферах деятельности используются требования, относящиеся к различным (специальным) знаниям, умениям, навыкам. Но методические принципы оценивания степени подготовленности должны быть универсальны и применяться к различным видам (сферам) деятельности.

Среди громадного многообразия сфер деятельности особое место занимает система образования. Уровень подготовленности выпускников образовательных учреждений в значительной степени определяет возможного сти дальнейшей профессиональной подготовки работников и, как следствие, научный, оборонный, культурный и производственный потенциал страны.

Получение своевременной объективной информации об учебных достижениях учащихся образовательных учреждений позволяет сделать прогноз динамики развития существующих отраслей экономики, а также принять заблаговременные меры для продвижения отрасли в нужном направлении и с рациональными темпами.

Разработка методов объективного оценивания учебных достижений обучаемых необходима для оценивания эффективности обучения и планирования мероприятий по ее повышению. Актуальны вопросы взаимосвязи качества обучения с затрачиваемыми на это материальными, финансовыми и кадровыми ресурсами.

В узко прикладном плане методы объективного оценивания учебных достижений должны использоваться для подтверждения степени освоения образовательных программ общего, полного среднего, а также среднего и высшего профессионального образования.

Существующая практика показывает, что в настоящее время в стране потеряна объективность в оценивании подготовленности выпускников образовательных учреждений. Выдаваемые по итогам обучения документы государственного образца содержат неадекватные оценки итоговых достижений учащихся.

Объективно оцененные учебные достижения учащихся могут быть с успехом использованы в механизме дальнейшего финансирования, как отдельных учащихся, так и образовательных учреждений.

В связи с этим, разработка методов оценивания степени подготовленности граждан в различных сферах деятельности чрезвычайно актуальна.

Основные положения, выносимые на защиту.

• Теоретическое обоснование [47] выбора модели с промежуточными категориями выполнения заданий для работы с тестами, содержащими задания как дихотомического, так и политомического типов. По нашей рекомендации эта модель принята Министерством науки и образования РФ для проведения Единого государственного экзамена в России и используется последние годы Федеральным Центром тестирования для проведения централизованного тестирования в России.

• Разработка метода калибровки тестовых заданий в терминах классической теории оценивания параметров [70]. При сохранении полной теоретической строгости этот метод является наиболее методически прозрачным, поскольку полностью вписывается в рамки хорошо известного в математической статистике метода наименьших квадратов. Соответствующий алгоритм легко поддается программированию даже на языке электронных таблиц типа Microsoft Excel. Последнее делает разработанный метод очень удобным для преподавания основ ТМПТ. Показано, что исходные измерения подвержены в общем случае только случайным ошибкам и не зависят от адекватности используемой модели Раша реально полученной матрице ответов. Однако оценка соответствующей дисперсии единицы веса характеризует влияние не только случайных ошибок измерений, но и действие систематических ошибок за счет неизбежного отличия используемой функции успеха от результатов реального тестирования. Это позволяет разделять случайные и систематические воздействия, естественным образом формулировать наглядные критерии согласия с моделью и, при необходимости, отбраковывать грубые результаты.

Выравнивание различных вариантов теста на единую метрическую шкалу методом наименьших квадратов. Разработанная процедура [69] основана на теории условного экстремума и - в отличие от известных подходов - позволяет использовать полную ковариационную матрицу оценок трудностей общих заданий различных вариантов теста.

Введение понятий веса тестового задания и теста в целом, доказательство свойства аддитивности этих понятий и их эквивалентности соответствующим количествам фишеровской информации [84].

Развитие понятия характеристической функции теста (ХФТ) как точного соответствия между первичными процентными баллами и окончательными оценками уровня подготовленности испытуемых в логитах. Введение аналогичного по смыслу понятия характеристической функции контингента испытуемых (ХФК) [44, 71]. Вывод аналитических выражений ХФТ при условии равномерного или нормального распределения трудностей тестовых заданий. Разработка сравнения тестов в целом при произвольном распределении трудностей тестовых заданий с помощью числовых характеристик ХФТ в виде ее существенных параметров. Определение понятия параллельности неидентичных тестов одинаковой содержательной валидности как совпадение соответствующих характеристических функций. Расстояние между ними в той или иной метрике рекомендовано трактовать как количественную меру непараллельности тестов. В ослабленном виде можно сравнивать не сами характеристические функции, а их существенные параметры.

Концепция системы объективного оценивания учебных достижений учащихся в общероссийском масштабе [29, 73, 74].

Наука начинается с измерения.

Д.И. Менделеев

Заключение диссертация на тему "Теория и методы оценки эффективности систем обучения коллективного пользования"

4.9 Выводы и практические рекомендации

Общая проблема калибровки тестовых заданий и выравнивания их характеристик на единую шкалу трактуется нами как задача на условный экстремум. При этом предложение обрабатывать совместно все варианты одного теста не приводит к существенному увеличению объема требуемых вычислений и может быть реализовано в рамках почти традиционной технологии обработки результатов тестирования. Достигается это за счет описанного выше разбиения процесса вычислений на два этапа.

Первый этап состоит в обработке каждого варианта теста по отдельности и по существу отличается от общепринятой процедуры только детальным оцениванием точности полученных трудностей б тестовых заданий - требуется их ковариационная матрица Q или, по крайней мере, диагональные элементы этой матрицы.

На втором этапе разбрасываются остаточные невязки b в узловых заданиях. Для этого находятся из решения системы (4.5.15) множители Ла-гранжа Л и вычисляются поправки за выравнивание результатов калибровки на единую шкалу (см. вычитаемое в выражении (4.5.16)). Если умножить теперь обе части равенства (4.5Л6) на матрицу В, то получим, что

А. А

ВS + b = 0, то есть найденные окончательные оценки д полностью удовлетворяют исходным требованиям (4.5.8).

Отличие изложенного алгоритма от ранее описанных - простота его теории и практической реализации. По существу, для теста, состоящего из к тестовых заданий требуется по матрице ответов лишь составить результаты измерений всевозможных комбинаций разностей трудностей тестовых заданий и вычислить средние значения к - 1 независимых параметров. Исходные предпосылки близки к методу Pairwise Procedure, изложенному в работе [91]. Однако в нашем случае теоретической основой служит простейший стандартный метод статистического оценивания параметров. Метод наибольшего правдоподобия в явном виде не требуется. Никаких уравнений решать не требуется. В то же время, каждый вычислительный шаг сопровождается точностными расчетами, позволяя, таким образом, наглядно прослеживать эффективность источников погрешностей и их накопление. Исходные измерения таблицы 4.8.1 подвержены в общем случае только случайным ошибкам и не зависят от адекватности используемой модели Раша реально полученной матрице ответов. Однако оценка (4.4.4) дисперсии единицы веса характеризует влияние не только случайных ошибок измерений, но и действие систематических ошибок за счет неизбежного отличия используемой функции успеха Раша от результатов реального тестирования. Это позволяет разделять случайные и систематические воздействия, естественным образом формулировать наглядные критерии согласия с моделью и, при необходимости, отбраковывать грубые результаты.

Полученные оценки трудностей тестовых заданий позволяют составить характеристическую функцию соответствующего теста. Это, в свою очередь, дает возможность сразу же выставить тестовый балл каждому испытуемому на 100-балльной шкале. Необходимые подробности описаны в следующем разделе.

Глава 5. Сравнительный анализ тестовых заданий и тестов в целом

В предыдущих разделах уже не раз отмечалось, что ТМПТ принципиально изменила современную тестологию и существенно расширила арсенал ее возможностей. В этом разделе мы коротко обсудим еще одну такую возможность ТМПТ, недоступную при работе вне этой теории.

Для удобства изложения приведем сначала вводные сведения из математической статистики.

Пусть некоторая величина, истинное значение которой мы обозначим буквой х, измерена к раз и получены числа Х]°, х®, хк. Каждое измерение может быть выполнено в разных условиях или разным измерительным инструментом, и потому точности результатов х,°, х2,., х® в общем случае различны. Обозначим соответствующие дисперсии как Д, £>2,., Бк.

Однако на практике обычно трудно установить точные значения этих дисперсий. Гораздо реальнее назначить только соотношение между ними. В связи с этим возникает понятие веса измерения. Весом Wj измерения с номером1,2, к называется величина, обратно пропорциональная соответствующей дисперсии Ор то есть по определению опр С

5.1) где С - некоторая положительная константа, коэффициент пропорциональности. Константа С задает масштаб весов, их единицу и потому называется дисперсией единицы веса. Ее можно выбирать только из соображений удобства вычислений, например, так, чтобы веса были не очень большими и не очень маленькими числами. Все веса "н^, ., м>к можно умножать или делить на любое положительное число, т.к. соотношение весов при этом не меняется (типичная шкала отношений). Заметим, что с дисперсиями подобные действия не допустимы.

Итак, если, например, = 2, а щ = 1, то это означает, что дисперсия £>2 второго измерения в два раза меньше дисперсии -О] первого измерения и в этом смысле второе измерение "весомее", т.е. дает больший вклад в конечный результат при любом выборе С. При этом сами дисперсии могут оставаться неизвестными.

Можно доказать, что для определения оптимальной оценки х искомой величины х по результатам измерений х®, х2,., хйк достаточно знать только веса и>ь м>2, ., \ук, а не дисперсии Г>15 . Соответствующая формула имеет вид у^/с О и называется средним весовым или средневзвешенным. При этом вес ту-среднего весового х равен сумме весов каждого измерения, то есть

Таким образом, та информация относительно искомой величины х, которая сосредоточена в средневзвешенной оценке х, представляет собой сумму вкладов каждого отдельного измерения.

Веса называются нормированными, если их сумма равна единице. Так, коэффициенты, стоящие в правой части равенства (5.2) перед результатами измерений, являются нормированными весами. Нормированный вес выражает ту долю, которую составляет вклад соответствующего измерения в оптимизацию окончательной оценки х.

Если все веса одинаковы, то среднее весовое (5.2) становится обычным средним арифметическим.

5.1 Вес тестового задания и теста в целом

При обработке результатов тестирования в рамках модели Раша каждое тестовое задание предназначено для измерения уровня подготовленности в испытуемых. Однако тестовые задания имеют различные характеристики и, следовательно, различен вклад каждого тестового задания в приобретаемую информацию о в. Сопоставлять такие вклады и тем самым анализировать сравнительные достоинства и недостатки различных тестовых заданий удобно с помощью весов этих заданий, в частности, с помощью нормированных весов.

Чтобы получить веса тестовых заданий, выведем сначала формулу дисперсии определения в и затем воспользуемся определением (5.1).

Начнем с тождества к

5.3) к

5.1.1) гдеру определяется моделью (1.1.14).

Дифференцируя (5.1.1), получим к - л или

16; = к *Ри ч"1

5.1.2) где с1Ь и а в обозначают дифференциалы.

В теории ошибок измерений известно правило перехода от соотношения между дифференциалами к соотношению между дисперсиями: надо дифференциалы заменить дисперсиями, а коэффициенты перед ними возвести в квадрат. Применяя это правило к соотношению (5.1.2), получим

Щ) = 2 м щ

Од).

5.1.3)

Здесь дисперсия В(Ь,) первичного балла Ъ1 определяется известной формулой (см., например, [4.7,°с. 20]):

7=1

5.1.4)

Поэтому

В{в) = £

7=1 (др(в,3/) ч-2 дв

7=1

5.1.5)

Величина, обратно пропорциональная этой дисперсии, определяет собой вес теста м>1 (в), то есть вес всех к тестовых заданий в целом: I 7=1 дв

7=1

5.1.6)

Здесь, для определенности, дисперсия единицы веса С = 1.

Если тест состоит только из одного у'-го задания с известной трудностью 8' ■, то вес м> ■ этого задания, очевидно, равен где Р](6) обозначает характеристическую функцию /-го задания, <2у(0) - 1 -р](9), а р^{9) - производнаяР){9) по 9.

Для основной логистической модели Раша (1.1.14) имеем а а9 е +е 7 в 8е е 1 ев+ег1)2 рШ-д,(в). (5.1.8)

Подставляя это в (5.1.7) и (5.1.6), получаем, что вес]-го тестового задания равен

5.1.9)

Вес всего теста равен ж

7=1 7=1

5.1.10)

Таким образом, вес теста равен сумме весов каиедого тестового задания. Это важное соотношение позволяет оценивать вклад каждого тестового задания в общую информацию о значении уровня подготовленности в испытуемых - чем больше вес задания, тем больше его вклад.

Нормированные веса тестовых заданий определяются формулой:

5.1.11)

На рисунке 5.1.1 показан в качестве примера график тестового задания трудности 8 - — 1 логит как функция 9. Точкой максимума является точка 9 = 8=-1 логит. График дает наглядное представление о теоретической целенаправленности конкретного задания с известной трудностью при измерении всевозможных уровней подготовленности.

Рис. 5.1.1. Вес тестового задания трудности 8 = —1 логит как функция в.

Отношение весов двух заданий характеризует их сравнительную эффективность. Отношение весов двух разных тестов характеризует сравнительную эффективность этих тестов. Заметим только, что веса заданий и теста в целом являются функциями от в. Поэтому, если одно задание оказывается более эффективным для в, равного, например 1 логит, то для в, равного, скажем, 2 логит, картина может оказаться обратной. Все зависит от разности в - 8, см. таблицу 5.1.1.

Заключение

Проведенные в диссертационной работе исследования составляют систему научных положений, образующих теорию и методы оценки эффективности систем обучения коллективного пользования.

В диссертации соискателем получены следующие основные результаты:

1. Предложена и обоснована модель с промежуточными категориями выполнения заданий для работы с тестами, содержащими задания как дихотомического, так и политомического типов.

2. Разработан метод калибровки тестовых заданий в терминах классической теории оценивания параметров. При сохранении полной теоретической строгости этот метод является наиболее методически прозрачным, поскольку полностью вписывается в рамки хорошо известного в математической статистике метода наименьших квадратов, что позволяет разделять случайные и систематические воздействия, естественным образом формулировать наглядные критерии согласия с моделью и, при необходимости, отбраковывать грубые результаты.

3. Разработана методика выравнивания различных вариантов теста на единую метрическую шкалу методом наименьших квадратов, основанная на теории условного экстремума, что позволяет использовать полную ковариационную матрицу оценок трудностей общих заданий различных вариантов теста.

4. Введено понятие веса тестового задания и теста в целом, доказаны свойства аддитивности этих понятий и их эквивалентности соответствующим количествам фишеровской информации.

5. Развито понятия характеристической функции теста (ХФТ) как точного соответствия между первичными процентными баллами и окончательными оценками уровня подготовленности испытуемых в логитах. Введено аналогичное по смыслу понятие характеристической функции контингента испытуемых (ХФК). Выведены аналитические выражения ХФТ при условии равномерного или нормального распределения трудностей тестовых заданий. Предложен метод сравнения тестов в целом при произвольном распределении трудностей тестовых заданий с помощью числовых характеристик ХФТ в виде ее существенных параметров. Определено понятие параллельности неидентичных тестов одинаковой содержательной валидности как совпадение соответствующих характеристических функций.

6. В рамках используемой модели обоснована возможность оценивания уровня подготовленности испытуемых, которая не зависит от индивидуальных свойств используемого теста.

7. Показано, что уровень трудности заданий теста можно объективно оценить вне зависимости от контингента испытуемых, по результатам тестирования которых трудности заданий определены.

8. Показана возможность оценить точность конечных результатов тестирования в обычном смысле теории измерений. Это позволяет строить доверительные интервалы, оценивать ошибки погрешностей и т.п. /

9. Разработана методика количественного сравнения между собой различных тестов одинаковой содержательной валидности.

10. Разработана концепция независимого непрерывного оценивания учебных достижений учащихся образовательных учреждений.

Разработанная методика оценки учебных достижений учащихся при использовании контрольных измерительных материалов (тестов) с промежуточными категориями выполнения заданий используется при обработке результатов централизованного тестирования и единого государственного экзамена.

Практическое использование модели Раша состоит в том, что она задает определенный "механизм" преобразования формальных наблюдений за исходом событий (первичные баллы) в объективные измерения т.е. в определенные точки на определенной метрической шкале латентных стимулов этих событий. Принципиальная возможность такого преобразования, собственно, и определяет собой то, что делает тестологию настоящей наукой и определяет собой прогресс, кстати сказать, не только в тестоло-гии, но и во многих науках социологического и экономического характера.

Но метрические свойства продукции возможны лишь при условии, что исходные материалы удовлетворяют определенным требованиям. Поэтому несогласованность некоторых исходных результатов тестирования обсуждаемой модели следует трактовать как низкую валидность соответствующих заданий, а не как повод для уточнения самого "механизма". Это принципиальный момент в понимании современной тестологии.

Настоящая работа открывает возможности для научного решения дальнейших задач по оцениванию учебных достижений учащихся, основными и первоочередными из которых являются:

• формирование банка калиброванных тестовых заданий;

• разработка методики формирования тестов (батарей тестов), обеспечивающих минимальную погрешность измерений во всем диапазоне тестовой шкалы;

• разработка методики измерения динамики учебных достижений крупных контингентов учащихся (в регионах России) в различные годы;

• разработка методики приведения в сопоставимый вид результатов измерения учебных достижений с использованием различных измерительных материалов и процедур (экзамены, олимпиады и пр.).

Отметим, что научные исследования по оценке учебных достижений учащихся должны сопровождаться совершенствованием организационного механизма сбора первичной информации, затрудняющей или исключаю-. щей сознательное искажение первичной информации с целью получения необоснованно высоких результатов.

Библиография Хлебников, Владимир Алексеевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Аванесов B.C. Тесты в социологическом исследовании. - М., Наука, 1982 г. •

2. Аванесов B.C. Тесты история и теория. -'М., Управление школой.1999 г.

3. Аванесов B.C. Научные проблемы тестового контроля знаний. М., 1994 г.

4. АнастезиА., Урбина С. Психологическое тестирования. М., Питер, 2003 г.

5. Балыхина Т.М. Словарь терминов и понятий технологии. М., Российский университет дружбы народов. 2000 г.

6. Бодалева A.A., Столина В.В. Общая психодиагностика. М., 1987 г.

7. Большой иллюстрированный словарь иностранных слов. М., «ACT», «Астрель», «Русские словари». 2002 г. 17000 слов.

8. Брокгауз Ф.А., Эфрон И.А. Энциклопедический словарь. Т. XXXIII (полутом 65). С-Пб, 1901 г.

9. Бурлаков Л.Ф., Морозов С.Н. Словарь справочник по психологической диагностике. Киев, 1989 г.

10. Гарипов М.И. и Валитова Г.А. Дидактическое тестирование в начальной школе. Уч. пособие. Уфа, 2002 г.

11. Глазков Ю.А., Хлебников В.А. Способы организации Единого государственного экзамена на основе тестов. П-я Всероссийская конференция «Развитие системы тестирования в России» Часть 1. Москва, 2000.

12. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 1997, Высшая школа, 480 с.

13. Даль В.И. Толковый словарь русского языка. М, «Экспо-пресс»,2000 г.

14. Дятлова К.Д., Михалева Т.Г., Хлебников В.А. Педагогическая валид-ность абитуриентских тестов и школьного аттестата. Журнал «Школьные технологии», № 5, 2004.

15. ЖданА.Н. История психологии от античности к современности. 3-е изд. испр. М., 1999 г.

16. Кадневский В.М. Зарождение и развитие тестов и тестовых методов. // Педагогическая диагностика, № 2. 2002 г.

17. Кадневский В.М. Из истории создания и применения тестов для системы образования. // Педагогическая диагностика, № 3. 2003 г.

18. Кадневский В.M. Становление и развитие научного метода тестов (конец XIX начало XX века). // Педагогическая диагностика, № 2, 2003 г.

19. Кондаков Н.И. Логический словарь-справочник. М., Наука 1975 г., 158 стр.

20. Лай В.А. Экспериментальная педагогика. М., Л., 1927 г.

21. Левин Ю.А. Новые методы испытаний школьной успешности в практике ленинградских школ. Л., 1927 г.

22. Леонова Е.Е., Михайлычев Е.А. Педагогическая диагностика в образовательной практике древних цивилизаций. // Педагогическая диагностика, № 1. 2002 г.

23. Линник Ю.В. Метод наименьших квадратов и основы теории обработки наблюдений. Гос. изд. ф.-м. литературы, М., 1962.

24. Майоров А.Н. Тесты школьных достижений: конструирование, проведение, использование С-Пб. Образование и культура. 1996 г.

25. Маслак A.A., Анисимова Т.С., Осипов С.А., Хлебников В.А. Исследование смещения оценок уровня знаний в зависимости от сдвига теста. Журнал "Вопросы тестирования в образовании", № 5, 2003.

26. Международный стандарт ISO 704-87 «Принципы и методы терминологии». 1987 г.

27. Михалев Ю.Б., Михалева Т.Г., Бляхеров И.С., Савинова Л.Н., Хлебников В.А. Основные принципы построения системы понятий и терминов педагогического тестирования. Журнал «Стандарты и мониторинг в образовании», № 2, 2003.

28. Михалев Ю.Б., Михалева Т.Г., Хлебников В.А. Особенности разработки стандарта «Тестирование педагогическое. Термины и определения». V Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2003.

29. Михалева Т.Г., Хлебников В.А. Проблемы оценки учебных достижений. Журнал "Вопросы тестирования в образовании", № 1, 2001.

30. Михалева Т.Г., Хлебников В.А. Единый государственный экзамен и проблемы итоговой оценки учебных достижений. Журнал «Стандарты и мониторинг», № 3, 2002.

31. Михалева Т.Г., Хлебников В.А. Два подхода к структуре Единого балла тестовых заданий. Труды Центра тестирования. Выпуск 2. Москва, 1999.

32. Михалева Т.Г., Хлебников В.А. Единый государственный экзамен и проблемы оценки учебных достижений. Ш-я Всероссийская конференция «Развитие системы тестирования в России». Москва, 2001.

33. Михалева Т.Г., Хлебников В.А. Методические принципы формирования единого банка тестовых заданий. П-я Всероссийская конференция «Развитие системы тестирования в России». Москва, 2000.

34. Михалева Т.Г., Хлебников В.А. Оценка учебных достижений. Журнал «Педагогическая диагностика», № 2, 2002.

35. Михалева Т.Г., Хлебников В.А. Проблемы стандартизации и сертификации в массовом тестировании.УГ Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2004.

36. Михалева Т.Г., Хлебников В.А. Сертификация залог качества продукции и услуг. Журнал «Вопросы тестирования в образовании» №11, 2004.

37. Михалева Т.Г., Хлебников В.А. Централизованное тестирование в России необходимость, возможности, проблемы. Журнал «Школьные технологии», № 1-2, 1999.

38. Монро П. История педагогики. М., Л., 1923 г.

39. Нардюжев В.И., Нар дюжев И.В., Хлебников В.А. Анализ результатов репетиционного тестирования на компьютерах через интернет в 19992000 г. П-я Всероссийская конференция «Развитие системы тестирования в России». Москва, 2000.

40. Нардюжев В.И., Нардюжев И.В., Хлебников В.А. Методика и технология проведения ЕГЭ в компьютерной форме. V Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2003.

41. Нардюжев В.И., Нардюжев И.В., Хлебников В.А. Особенности технологии централизованного тестирования в 2003 году. V Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2003.

42. Нардюжев В.И., Нардюжев И.В., Хлебников В.А. Централизованное компьютерное тестирование в 2002 г. Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2002.

43. Нардюжев В.И., Нардюжев И.В., Хлебников В.А. Централизованное компьютерное тестирование в 2002 г. Журнал «Вопросы тестирования в образовании», № 6, 2003.

44. Нейман Ю.М., Овчинников В.В., Хлебников В.А. Характеристическая функция теста. Журнал "Вопросы тестирования в образовании", № 7, 2003.

45. Нейман Ю.М., Панферов B.C., Самыловский А.И., Хлебников В.А., Шарыгин И.Ф. Объективная оценка учебных достижений. Журнал «Педагогическая диагностика», № 1, 2002.

46. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М., 2000, Прометей, 169 с.

47. Нейман Ю.М., Хлебников В.А. Как оценивается уровень подготовленности учащихся по результатам единого государственного экзамена. М., 2003, ePoligraph, 48 с.

48. Нейман Ю.М., Хлебников В.А. Педагогическое тестирование как измерение. ЦТ МО РФ, 2002, 67 с.

49. Нейман Ю.М., Панферов B.C., Самыловский А.И., Хлебников В.А., Шарыгин И.Ф. Концепция объективного оценивания учебных достижений. Ш-я Всероссийская конференция «Развитие системы тестирования в России». Москва, 2001.

50. Нейман Ю.М., Хлебников В.А. Задача тестирования в терминах классической теории оценивания параметров. Журнал «Вопросы тестирования в образовании», № 8, 2003.

51. Никольская A.A. Возрастная и педагогическая психология дореволюционной России. Дубна, 1995 г.

52. Овчинников В.В. Оценивание учебных достижений учащихся при проведении централизованного тестирования. М., 2001, Век книги, 27 с.

53. Овчинников В.В., Хлебников В.А. Сопоставление учебных достижений учащихся при использовании различных тестовых процедур. VI Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2004.

54. Овчинников В.В., Хлебников В.А. О точности измерения тестового балла. Журнал «Вопросы тестирования в образовании», № 4, 2002.

55. Орлов A.C., Георгиев В.А., ГеоргиеваН.Г., СивохинТ.А. История России. М., Проспект, 2004 г.

56. Панферов B.C., Самыловский А.И., Хлебников В.А. Системно-аналитические проблемы ЕГЭ. V Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2003.

57. Панферов B.C., Хлебников В.А. Отчет о выполнении Центром тестирования проекта по гранту Фонда Форда № 1025-0118. Журнал «Вопросы тестирования в образовании», № 4, 2002.

58. Петров Ю.А., Захаров А.А. Общая методология мышления. М., «Спутник», 2001 г.

59. Попов В.Г., Хлебников В.А., Янченко С.И. Об устойчивости относительных частот выполнения тестовых заданий в централизованном тестировании в РФ. Ш-я Всероссийская конференция «Развитие системы тестирования в России». Москва, 2001.

60. Pao С.Р. Линейные статистические методы и их применение. М., 1968, Наука, 548 с.

61. Рекомендации Р 50-603-8-89 «Разработка стандартов на термины и определения ВНИИ технической информации и классификации». М., Госстандарт РФ. 1985 г.

62. Сборник "Централизованное тестирование в 2002 году". М., 2002, ЦТ МО РФ, 238 с.

63. Семов A.M., СемоваМ.А., Хлебников В.А. Единый итерационный процесс совместной количественной оценки трудности заданий и уровней подготовленности участников тестирования. Труды Центра тестирования. Выпуск 2. Москва, 1999.

64. Семов A.M., Хлебников В.А. Исследование влияния учета трудности заданий на оценку уровней подготовленности тестируемых на основании данных централизованного тестирования 1999 г. Труды Центра тестирования. Выпуск 2. Москва, 1999.

65. Семов A.M., Хлебников В.А. Краткий анализ основных научно-методических аспектов централизованного вузовского тестирования. Труды Центра тестирования. Выпуск 2. Москва, 1999.

66. Ушинский К.Д. «О пользе педагогической литературы». Собр. сочинений. Т. 1. Учпедгиз, 1955 г.

67. Философский энциклопедический словарь. М., «Советская энциклопедия», 1983 г.

68. Фрейденберг О. «Поэтика сюжета и жанра. Период античной литературы.» М., Госиздат. 1936 г.

69. Хлебников В.А. Выравнивание различных тестов на единую метрическую шкалу. Сборник докладов научной конференции, посвященной 45-летию выхода человека в космос. М., 2006.

70. Хлебников В.А. Калибровка тестовых заданий в терминах статистической теории оценивания параметров. Сборник докладов Международной конференции "Гагаринские чтения". М., 2005.

71. Хлебников В.А. Характеристическая функция теста и ее существенные параметры в модели Раша. Журнал "Программные продукты и системы", №4, 2005.

72. Хлебников В.А., Бляхеров И.С. и др. Основные принципы построения системы понятий и терминов в педагогическом тестировании. // Стандарты и мониторинг в образовании, № 3. 2003 г.

73. Хлебников В.А., Михалев Ю.Б., Михалева Т.Г., Бляхеров И.С., Савинова J1.H. Проблемы стандартизации понятий и терминов педагогического тестирования. Журнал "Вопросы тестирования в образовании", № 5, 2003.

74. Хлебников В.А., Нейман Ю.М., Панферов В.С., Самыловский А.И., Шарыгин И.Ф. Концепция объективного оценивания учебных достижений. Журнал "Вопросы тестирования в образовании", № 6, 2003.

75. Хлебников В.А. Как нам реорганизовать ЕГЭ! Всероссийская конференция «ЕГЭ в российской системе образования» 27-28 января 2006 г. Москва, 2006.

76. Хлебников В.А. Как нам реорганизовать ЕГЭ! Журнал «Образование и наука. Известия Уральского отделения РАО», № 1, 2006.

77. Хлебников В.А. Краткий обзор развития педагогического тестирования в России. ФГУ «Федеральный центр тестирования», 2006.

78. Хлебников В.А. Критерии оценивания ЕГЭ. VII Всероссийская научно-методическая конференция «Развитие тестовых технологий в России». Москва, 2005.

79. Хлебников В.А. Особенности разработки отраслевого стандарта «Тестирование педагогическое. Термины и определения». Журнал «Вопросы тестирования в образовании», № 9,2004.

80. Хлебников В.А. Проблемы, симптомы и пути реорганизации ЕГЭ в систему добровольной сертификации. Журнал «Образование и наука. Известия Уральского отделения РАО», № 3, 2006.

81. Хлебников В.А. Теоретические основы объективного измерения учебных достижений учащихся. ФГУ «Федеральный центр тестирования», 2005.

82. Цатурова И.А. «Из истории развития тестов в СССР и за рубежом». -Таганрог, 1969 г.

83. Ярошевский М.Г. История психологии, изд. М., 1985 г.

84. Fisher G.H., Molenaar I.W. (editors) Rasch Models. Foundations, Resent Developments and Applications. Springer, New York, Berlin, 1997, 436 p.

85. Hambleton R.K., Swaminathan H., Rogers H.J. Fundamentáis of Item Response Theory. London, 1991, Sage publications, 174 p.

86. Khlebnikov V.A., Neyman Yu.M. Test Equating by the Least Squares Method. Abstracts of papers, Pacific Rim Objective Measurements Symposium, Hong-Kong.

87. Lindon Wim J. van der, Hambleton R.K.(editors). Handbook of Modern Item Response Theory. Springer-Verlag, New York,1997, p.510.

88. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, 1960, Danish Institute of Educational Research. (Expanded edition, Chicago, 1980, The University of Chicago Press)

89. The Pocket Oxford Russian Dictionary Oxford New York Oxford university press. 1994 r.

90. Wright B.D., Linacre J.M. Rasch Model Derived from Objectivity. Rasch * Measurement Transactions, 1987, v.l:l.

91. Wright B.D., Masters G.N. Rating Scale Analysis. Rasch Measurement, • Chicago, 1982, Mesa, 206 p.

92. Wright B.D., Stone M.N. Best Test Design. Chicago, 1979, Mesa Press, \\ 223 p.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00