Модели оценки качества тестовых материалов на этапе разработки

Окладникова, Светлана Владимировна

Управление в социальных и экономических системах

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Модели оценки качества тестовых материалов на этапе разработки

кандидата технических наук: Окладникова, Светлана Владимировна
город: Астрахань
год: 2009
специальность ВАК РФ: 05.13.10

Диссертация по информатике, вычислительной технике и управлению на тему «Модели оценки качества тестовых материалов на этапе разработки»

Автореферат диссертации по теме "Модели оценки качества тестовых материалов на этапе разработки"

На правах рукописи ' ------

Окладникова Светлана Владимировна

0 3 СЕН 2009

МОДЕЛИ ОЦЕНКИ КАЧЕСТВА ТЕСТОВЫХ МАТЕРИАЛОВ НА ЭТАПЕ РАЗРАБОТКИ

Специальность:

05.13.10 «Управление в социальных и экономических системах»

АВТОРЕФЕРАТ

диссертации на соискание ученой степеии кандидата технических наук

Астрахань 2009

003475882

Работа выполнена в Астраханском государственном университете

Научный руководитель: Официальные оппоненты:

доктор технических наук, профессор Петрова Ирина Юрьевна доктор технических наук, профессор Дворянкин A.M.

доктор технических наук, профессор Жуков Д.О.

Ведущая организация:

Учреждение Российской академии образования «Институт информатизации образования»

Защита диссертации состоится 26 сентября в 13.00 часов на заседании диссертационного совета ДМ 212.009.03 при Астраханском государственном университете по адресу: 414056 г. Астрахань, ул. Татищева, д.20 а.

Отзывы на автореферат в двух экземплярах, заверенные гербовой печатью, просим направлять ученому секретарю диссертационного совета по адресу: 414056 г. Астрахань, Татищева, д.20 а, АГУ, диссертационный совет.

С диссертацией можно ознакомиться в библиотеке Астраханского государственного университета.

Автореферат разослан 25 августа 2009 года.

Ученый секретарь диссертационного совета к.т.п.

О.В. Щербинина

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. С изменением системы высшего образования в России в рамках реализации основных принципов Болонского соглашения, в частности с появлением новых подходов к оценке качества образовательного процесса в вузе, электронное тестирование, как метод оценки уровня знаний учащихся, приобретает все большую популярпость. В связи с этим возникает проблема качества используемых в учебном процессе тестовых материалов (ТМ), исследованию которой посвящено много работа зарубежных и отечественных ученых: Г. Раша, Р. Торндайка, Дж. Гласса, Ф. Лорда, А. Анастази, B.C. Аванесова, М.Б. Челышковой, Ю.М. Неймана, Т.Н. Тягуновой, СЛ. Плавинского, Л.А. Сысоевой и др.

В странах, использующих высокоэффективные технологии и методики диагностики качества образования, разработкой, проверкой и тиражированием ТМ занимаются специальные организации, например, в CUJA - Educational Testing Service ETS (www.ets.org), в Великобритании - The Qualifications and Curriculum Authority QCA (http://www.qca.org.uk), в России - Федеральный институт педагогических измерений (http://www.fipi.ru).

Несмотря на развитие государственной системы тестирования, в России на сегодняшний день большую часть используемых в учебном процессе ТМ составляют материалы, разработанные преподавателями учебных заведений в рамках преподаваемых ими дисциплин. Популярность их использования обусловлена в первую очередь адаптивностью по отношению к преподаваемому материалу и ориентацией на педагогические потребности небольшого количества учащихся и т.п. Содержание ТМ формируется авторами вручную и целиком зависит от их индивидуальных особенностей, например, стиля изложения, уровня компьютерной грамотности и т.п.

Отсутствие у многих преподавателей опыта по разработке ТМ и соответствующих знаний в области тестологии приводит к нарушению основных требований, предъявляемых к структуре, содержанию и оформлению тестовых заданий (ТЗ). Результаты исследований, проведенные в области качества ТМ, показали, что в среднем отсеивается 47 % разработанных ТЗ. Исследование, проведенное в Астраханском государственном университете, позволило выявить основные причины, снижающие качество ТМ и разбить их па группы (рис. 1). Анализ графика показывает, что 48 % ошибок, допускаемых авторами, вызвано нарушением технологических требований, в частности избыточностью слов в формулировках ТЗ, которая в процессе тестирования значительно снижает уровень понимания у испытуемых поставленного в задании вопроса, и нарушением технических правил оформления ТЗ, существующих в эксплуатируемой автоматизированной системе тестирования (ACT).

О Нарушение методические требоввме*. предьяе/ие«л«г к содержащее ТЗ (37%)

□ Нарушение технологмескттребоюмяй. гредъязлммде к форме ТЭ (32%)

□ Нарушение гекнмесшх требований оформления ТМ (1Б%)

□ Нарушение пр4«цнтов отбора содержания (3%)

□ Нащяие граиаатичес|гю ошибок (6%)_

Рисунок 1. Причины, снижающие качество тестовых материалов

Трудности, связанные с применением существующих методов оценки качества ТМ в вузе, обусловлены рядом факторов:

• необходимостью наличия большого объема статистической выборки результатов тестирования, достаточного для получения достоверных данных анализа, что для ряда дисциплин в силу небольшого количества часов, отведенных на их изучение или в силу малочисленности групп учащихся возможно только в течение нескольких семестров;

• длительный период накопления статистических данных может привести к потере актуальности ТМ, т.к. для некоторых дисциплин (например, юридического, экономического направлений, информационных и телекоммуникационных технологий) характерно быстрое изменение содержания предметной области;

• обработка статистических данных предполагает эмпирическую проверку свойств ТМ на основе сложного математического аппарата и ее выполнение крайне затруднительно без привлечения специальных программных продуктов;

• в силу специфики представления результатов анализа для их правильной интерпретации преподавателю необходимы дополнительные знания в области тестологии и знание самих методов статистической обработки.

В результате возникает потребность в разработке методов автоматизированной оценки качества ТМ до начала их практического использования, которые позволили бы повысить как качество самих ТМ, так и эффективность процесса их создания. Одним из возможных способов решения поставленной задачи является оценка восприятия содержания ТМ, основанная на анализе количественных показателей формулировок ТЗ, характеризующих стиль изложения материала и степень его понимания целевой аудиторией.

Объектом исследования является процесс разработки и оценки качества ТМ на этапе их создания.

Предметом исследования являются модели оценки качества ТМ в процессе разработки и способы автоматизации этого процесса.

Цель работы: повышение эффективности процесса разработки ТМ с оценкой их качества до начала практического использования на основе исследования моделей и последующей автоматизации процесса подготовки ТМ.

Для достижения поставленной цели были выделены следующие задачи:

1) провести анализ методологических подходов оценки качества ТМ, обобщить и систематизировать существующие методы оценки восприятия текстов и выбрать те, которые в наибольшей степени соответствуют цели исследования;

2) установить совокупность единичных показателей, характеризующих основные свойства содержания ТЗ и позволяющих количественно оцепить восприятие ТМ, рассчитать их нормированные значения и определить вклад каждого показателя в комплексную оценку;

3) разработать модель комплексной оценки читабельности ТМ, учитывающую специфику содержания предметной области ТЗ и присутствующие в их формулировках компоненты (текст, формулы, цифры и т.п.); построить шкалу диапазонов значений комплексного показателя для определения уровня читабельности ТМ;

4) разработать корреляционно - регрессионные модели оценки «трудности» ТЗ на основе показателей читабельности до начала их использования в учебном процессе; проверить адекватность разработанных моделей и оценить точность полученных с их помощью данных;

5) разработать функциональную модель технологического процесса оценки и контроля качества ТМ до начала их практического применения;

6) разработать алгоритмы и комплекс программного обеспечения для автоматизации критериальной оценки читабельности и трудности ТМ на этапе разработки, проверить их эффективность.

Методы исследования. Для решения поставленных задач были использованы методы тестологии, квалиметрии, теории вероятности и математической статистики, математического моделирования, теоретические основы структурного анализа и методологии проектирования информационных систем.

Научная новизна работы. В диссертации разработаны и вынесены на защиту следующие основные положения:

1) Существенно расширена система единичных показателей читабельности, позволяющая с учетом конструктивных особенностей тестовых заданий и компонентов, присутствующих в формулировках, оценивать их качество на этапе разработки.

2) Впервые рассчитаны нормированные значения единичных показателей оценки читабельности русскоязычных тестовых материалов на основе вероятностно - статистических методов.

3) Разработана модель комплексной оценки читабельности тестовых материалов и построена шкапа диапазонов определения уровня читабельности.

4) Впервые разработаны корреляционно - регрессионные модели оценки трудности тестовых заданий, позволяющие на основе показателей читабельности предположить качество тестовых заданий по критерию «трудность» до начала их практического использования.

5) Разработаны функциональные и информационно - логические модели процесса организации оценки и контроля качества тестовых материалов на этапе их создания, отличающиеся применением международных стандартов системного структурного анализа IDEF и реализованные в автоматизированной системе тестирования.

Практическая ценность работы заключается в создании автоматизированной системы тестирования, обеспечивающей автора автоматизированной поддержкой в отношении контроля качества ТМ в процессе их разработки, позволяющей повысить эффективность процесса разработки ТМ и обеспечить более качественную их подготовку за счет сокращения числа «отбракованных» ТЗ в среднем в 2 раза.

Реализация результатов работы. Разработанная система тестирования (ACT-ДО) была внедрена в Астраханском государственном университете в рамках международного проекта JEP 25070_2004 «Модернизация образования в сфере ИКТ в университетах юга России» (MEICTRU), в Пензенском государственном университете для организации учебного процесса на кафедре КиПРА, в Бийском филиале Современной Гуманитарной академии в рамках реорганизации учебного процесса в связи с переходом к блочно - модульному обучению по Болонскому соглашению.

Апробация работы. Основные положения и результаты диссертационной работы докладывались на Всероссийской научно-практической конференции "Проблемы информатизации образования: региональный аспект" (Чебоксары,

2006 г.); Всероссийской научной конференции «Инновационные технологии в управлении, образовании, промышленности «АСТИНТЕХ-2007» (Астрахань,

2007 г.); Международной конференции «Компьютерные науки и информационные технологии» (Саратов, 2007 г.); II-nd International Conference on Modern (е-) Learning (Varna, Bulgaria, 2007 г.); 1-ой Международной научно-технической конференции «Эволюция системы научных коммуникаций ассоциации университетов прикаспийских государств» (Астрахань, 2008 г.) и других научных конференциях профессорско-преподавательского состава Астраханского государственного университета (Астрахань, 2005 - 2009).

Публикации. По теме диссертации опубликовано 12 печатных работ, в том числе 4 статьи в научно - технических изданиях, рекомендованных ВАК РФ; получено 2 свидетельства об официальной регистрации программ для ЭВМ.

Структура и объем диссертации.

Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Общий объем работы 184 страницы машинописного текста, который включает 112 страниц основного текста, 26 рисунков, 29 таблиц, 11 приложений и список литературы из 115 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследований, показаны научная новизна и практическая значимость полученных результатов, приведены сведения об апробации работы и публикациях.

В первой главе рассмотрены особенности разработки ТМ, их конструктивные отличия от других контрольно - измерительных учебных материалов. Проанализированы существующие методы создания ТЗ и оценки качества Обобщены и систематизированы основные показатели качества, выявлены основные причины, затрудняющие их использование при оценке качества ТМ, разработанных преподавателями и используемых в учебном процессе в вузе. Показана необходимость проведения оценки качества на этапе разработки ТЗ. Дана сравнительная оценка существующих моделей читабельности текстов, характеризующих степень восприятия поставленного вопроса в содержании ТЗ. Проведен анализ существующих автоматизированных систем подготовки и оценки качества ТМ.

Качество ТМ - многогранно. Для его описания используют сложную систему комплексных и единичных показателей (рис. 2). Основными являются валидность и надежность. В качестве критериев валидности рассматривают формальные, оценивающие технологичность представления содержания тестовых вопросов, и содержательные, оценивающие правильность отображения в них учебного материала. Надежность является комплексной характеристикой, главным образом зависящей от метрических свойств отдельных ТЗ, значения которых рассчитываются путем статистической обработки сырых баллов, полученных по результатам предварительного тестирования испытуемых.

| Качество тестовых материалов

| Валидность | | Надежность

-1 Формальные критерии Метри ческие характеристики

1—L Содержательные критерии —I Дифференцирующая способность

—1 Коэффициент тематического | соответствия - Кол1>фиifиеinn нприоции

Ко'м/н/шцисшп кпр/уеляции ТЗ

Ичрччстр крутимы хогчгктспастической кпичги1

Коэффициент тематического —[ Трудность ТЗ

-1 Длина теста

Рисунок 2. Структура показателей качества I'M

Анализ существующих ACT показал, что подсистемы анализа качества ТМ реализованы лишь у 30%. Большую часть из них составляют подсистемы, основанные на статистической обработке результатов тестирования

испытуемых, при этом отсутствует простой и удобный для пользователя интерфейс, позволяющий быстро интерпретировать полученные результаты анализа. Распространенные на российском рынке программы оценки качества ТМ (RUMM 2020, WiNSTEPS и др.) ориентированы на пользователей, имеющих навыки вычислительной работы на компьютере и знания в области статистического анализа. В силу своей высокой стоимости эти программы используются в специализированных центрах тестирования.

Основным компонентом содержания ТЗ, как правило, является текст. В мировой практике при оценке качества текста широко используется понятие readability (в переводе с английского — «удобочитаемость», «читабельность»), В Большом англо-русском и русско-английском словаре термин «readability» переводится как: 1) удобочитаемость, четкость, разборчивость; 2) читабельность, понятность, привлекательность сюжета и стиля, четкость.

В настоящее время термин readability широко используется в полиграфии, программировании, лингвистике и Public Relation. Под удобочитаемостью рассматривают свойство текста при чтении не вызывать повышенного утомления. В качестве факторов, влияющих на удобочитаемость текста, выделяют тип шрифта, его размер, цвет и т.п. Под читабельностью понимают возможность свободного прочтения текста человеком без чрезмерного напряжения, т.е. используются ли в тексте сложные термины, существует ли перегруженность причастными и деепричастными оборотами и т. п.

Существует целый ряд методов (таб. 1), с помощью которых можно оценить сложность написанного текста, в которых основными критериями выступают общее количество слов, средняя длина предложений и слов. Эти параметры легко поддаются количественному выражению и пригодны для автоматической оценки.

Рассмотренные модели ориентированы на оценку читабельности англоязычных текстов. Основные параметры русских и английских текстов не совпадают. Средняя длина слова английского словаря составляет 2,77 слога, а русского 3,03. Предложение, написанное на английском языке, в среднем в 1,43 раза больше, чем на русском. С учетом этого в исследовании, проведенном И.В. Оборневой [2005], формула Флэша была скорректирована для оценки читабельности русскоязычных учебных текстов. Однако существует ряд факторов, которые делают невозможным применение данной модели для оценки читабельности ТМ. Во-первых, при расчете коэффициента читабельности объем анализируемой выборки текста должен быть не менее 100 слов, когда средняя длина формулировки отдельного ТЗ в среднем в 4 раза меньше. Во-вторых, структура ТЗ конструктивно отличается от структуры обычного текста наличием инструкции, вопроса и набора ответов.

Таблица 1

Налшшг ютоэ НшЕыупыг гаршгтры ТПП1 Мппапвми! мпдг» П'ршипгпи ЛГ№У»ГШ>П>

Пега гушшкюи в&вггшзтэюсгоэтпгЖ доиггах» иргзоашявв хшаг», ергзнп лзои щжзмшгвв щ (рглгг КШГОП10 'дмяних' а* (Ьоаггтрп еето*) Лфгаглгшг «горал а питий аувп орш

Фодоса (па!Ш) ойшгг иаигезю см» в тгалг £ иалпи хфеяшгавй игааг «. общ* казггпю аганпаг £ (роирпщгхвшявя тц пглвм злшз а« »(всллО. - (и' 3.01 ?>- одни что гбкыюли 1 пи о» лрахмьз до своре»* СНА

Форгра ерпшм язавхфгхожпва ергзям дама опар. - Р • 1 ;3- |Ц51) шрглглпшг Об^ХАЖШ ЯЮ» ЮЙ гавп орш) «¿иблшпгаах при шборг нов и \чг£юнго

Пенс ЗСсствлП"» Лиг? о&о« швшго*о апчтао» в тгкпе ж. обтгг лозгжяб ото» нъаг к, »апга» ярезвожяшб к 1гш г 1, Д1ПИ цглшлган тт. ютна сэов Р (> ешмап! Л1ЛШа Чта&СЪВОСИ! икл ов

Сортах Пгора-С&акфя-Хгфа обшкшалгтошяювггшгСейвгг шэтююсаож» шаг к. лослчгаю оргзяии'жаЬ в^жзг ц Сфгаш язша фгзоаагаа к-, ергэшлшва ах>» росоахх). - И " »,0778 - /• - ашша «щпкк-.'ыкч) и 1гхл он. продаж ачгхмья за зп гй

Форгаа Милгаша -5МОС>' обьга 1«п» - 30 прсроммй, о&огг мсипга» сив* таг к; мзгоспо 'азаяих' Ш* »1ГКПГ1-, ергянге шапгаво 'диптмт" арввтгааг!. про:н<шср»жш 3!Х'®впошгижн*1г*ла

Форгса ККСАСТ о^шгешзпгамсиянкагЬ шзпгаю &люатпв со» втоог Ъ г.«« 1 -го-к'амбт-ь Мши ПОИМ НОЛ Ы 1Пюй хгшиши а арзш СТА. дотирована! юыюкаироокх чл »глгй

Вследствие указанных причин возникает необходимость модифицировать существующие модели оценки читабельности ТМ за счет расширения состава критериев с целью дальнейшего их использования при оценке качества ТМ. Таким образом, поставленная задача является актуальной.

Во второй главе рассмотрены методологические подходы, используемые в настоящее время при разработке показателей качества. На основе вероятностно -статистических методов разработана система единичных и комплексных показателей оценки читабельности ТМ и корреляционно - регрессионные модели оценки трудности ТЗ.

В результате опроса ведущих преподавателей Астраханского государственного университета и специалистов регионального ресурсного центра дистанционного обучения методом комиссии была сформирована номенклатура, состоящая из 10 единичных показателей качества (ЕПК'): С| -общее количество вариантов ответов, С2- количество дистракторов, С, - общее количество слов, С4 - средняя длина слова, С5 - количество предлогов, союзов, частиц, Сб - количество знаков препинания, С7 - количество иностранных символов (англ., греч. и т.п.), С8 - количество математических символов, С9 -количество цифр, Сю- количество формул.

Трудность в определении нормированных значений показателей (С^ц вызвана отсутствием в настоящее время их стандартизованного или нормативного перечня. Наиболее приемлемым представляется подход, при котором значения нормирующих показателей определяются на основе

вероятностного метода, предполагающего проведение статистической оценки выборочных значений С) с учетом генеральной совокупности. Для решения

задачи нормирования ЕПК в качестве опытных образцов были взяты тесты (Т5) (5=1...23) по различным дисциплинам, прошедшие статистический анализ качества, и имеющие значение основного показателя качества - надежность, равное р>0.7, что является допустимым для экзаменационных тестов. Средний объем накопленных статистических данных составил 310 человеко/тестирований. При расчете показателя надежности (р) в качестве метода оценки надежности теста использовался метод расщепления, коэффициент надежности определялся по формуле Спирмена - Брауна.

В ходе предварительного анализа опытные тесты (Т8) были разделены на 2 группы. В первую группу вошли тесты, составленные по гуманитарным дисциплинам, в которых значения показателей С> и С,0 равны 0. Во вторую группу вошли тесты, составленные по естественно - научным и инженерно -техническим дисциплинам, в которых значения показателей С» и Сю не равны 0. Значения нормированных ЕПК были рассчитаны для каждой группы опытных тестов с погрешностью, не превышающей 3,68% (таб. 2)

Таблица 2

Наборы ЕПК Значения (С)н и (К) для ЕПК С|

С, С2 С3 С4 с5 Сб С, с8 С, Сю

5,7 3,99 24,18 3,28 2,5 2,51 3,68 - 5,54 -

<2, 0,261 0,148 0,264 0,186 - - 0,141 - - -

в2 0,304 0,172 0,307 0,217 - - - - - -

(Сйы 6,59 4,86 27,5 3,51 3,13 2,49 3,64 8,24 9,1 3,4

а 0,187 0,175 0,180 0,137 - - 0,126 - - 0,195

0,214 0,200 0,206 0,157 - - - - - 0,223

Определение весовых коэффициентов выполнялось на основе экспертного метода непосредственной численной оценки. Цель экспертизы - численно определить какой из ЕПК С) при увеличении своего значения усложняет восприятие формулировок ТМ и с какой степенью. Для проведения экспертизы была предложена абсолютная шкала определения степени влияния ЕПК С, на читабельность ТМ, позволяющая однозначно провести оценку объектов в баллах: 0 - не усложняет; 1 - усложняет очень слабо; 2 - усложняет слабо; 3 -усложняет средне; 4 - усложняет сильно; 5 - усложняет очень сильно. По результатам экспертизы были построены две матрицы: К)={К|] | ¡=1...12, ]=1....8} и К2={Кд | ¡=1...12, ]=1....10} в которых элементы К^ принимали значения 0<К|)<5. Обработка мнений экспертов позволила выделить существенно значимые показатели (С,, С2, С3, С4, С7 Сю), для которых выполняется условие: К^1/т. С учетом рассчитанных нормированных значений ЕПК были сформированы новые наборы: (¿¡-{Си С2, Сл С/, С7}, 0,^{Сь С2, С3, С4}> 0.л={Си С2, Сз, С4, С7, Сю} и б^С/, С2, Сз, С4, Сю}, значения весовых коэффициентов для которых представлены в таб. 2. Согласованность мнений экспертов оценивалась на основе коэффициентов конкордации: №¡=0,8, IV2 =0,7.

Сформированная номенклатура характеризуется большим числом разнородных ЕПК, что обуславливает определенные трудности в нахождении их функциональной зависимости. Увеличение значения каждого из показателей С) «ухудшает» качество формулировок ТЗ, т.е. делает их менее читабельными. Поэтому уравнение модели комплексной оценки читабельности ТМ было разработано на основе принципа среднего геометрического, а значение относительного единичного показателя рассчитывалось по формуле:

Комплексный показатель качества признается состоятельным, если его значения монотонно возрастают (или убывают) при улучшении качества продукции. Если в ТЗ значения показателей С]=(С^ГЧ, то значение комплексного показателя 0=1, что соответствует его «идеальному» значению. Увеличение натуральных значений С) повышает читабельность ТЗ, т.е. его содержание становится более «трудным» для восприятия, при этом значение комплексного показателя ()«1. Уменьшение натуральных значений С) наоборот делает содержание ТЗ более «легким», а значение комплексного показателя 0»1. С учетом этого для определения уровня читабельности ТЗ были определены границы диапазонов комплексного показателя:

1. Читабельность ТМ соответствует установленному показателю качества и считается «нормальной» при выполнении условия:

0 = ПяЛС/' • если УС, (С,.)„ -Д- <С, <(С,)„ +Д- (2)

2. При ограничении уровня читабельности сверху шкала градации определяется при выполнении условия:

а»=П«7<с/' -если ^ -д,- (3)

№

Уровень читабельности устанавливается «легкий».

3. При ограничении уровня читабельности снизу шкала градации определяется при выполнении условия:

2™„=П^(С;)'Г',если УС, (Су)„ + ДГ <Щ.)„)тю (4)

Уровень читабельности устанавливается «сложный».

4. Читабельность ТМ признается не соответствующей установленному показателю качества при условии:

[УС, С. <((Су )„),,„„ (5)

0 = 0, если

[УС, с, >((С>)Л,)„ЦХ На основе (2) - (5) были рассчитаны значения границ диапазонов (таб. 3).

Таблица 3

Наборы ЕПК Градация оценки

Q, Ü2 Qs Qa

[0,6:0,96] [0,62:0,96] [0,65:0,97] ГО,65:0,971 сложный

[0,95:1.06] [0,95:1.06] [0,96:1,08] ГО,96:1,08] нормальный

[1.07:2.62] [1.07:2.47] [1.09:3.73] [1,09:3,33] легкий

В настоящее время показатель качества - «трудность ТЗ» рассматривается как коэффициент решаемости его испытуемыми и является статистической величиной, рассчитываемой по результатам тестирования. Целью дальнейшего исследования является разработка моделей, позволяющих провести априорную оценку трудности ТЗ на основе показателей читабельности.

При расчете трудности ТЗ был использован математический аппарат современной теории тестирования (IRT). Данный выбор обусловлен возможностью оценки уровня сложности ТЗ независимо от уровня группы студентов, при помощи которой она была получена, посредством итерационной обработки (методом Ньютона - Ральфсона) сырых баллов. Для обеспечения репрезентативности выборки были использованы результаты тестирований студентов различных специальностей, накопленные в течение 5 учебных семестров, т.к. обучение студентов по каждой дисциплине проводилось в течение одного семестра. При проведении моделирования и обработке результатов использовались пакеты Statistical Power for MS Excel (V.1.8) и STATIST1CA V.6.0.

Корреляционный анализ в отношении «трудности» ТЗ (Y) и комплексного показателя «читабельность» (X), показал наличие отрицательного характера зависимости Y=F(X) ((rxy)i= - 0,81, (rry)2= - 0,69), т.е. уменьшение значений X увеличивает значения Y (и наоборот). Методом линейной регрессии была разработана модель оценки трудности ТЗ на основе комплексного показателя читабельности для разных наборов ЕПК: для первого набора ЕПК: x=Q,, x=Q2, (R2= 0,66)

К, (JE) = 3,25- 2,67 х (6)

для второго набора ЕПК: x=Q3, x=Qj, (R!=0,57)

У2( jc) = 3,81-2,9JC (7)

Для построения модели оценки трудности на основе ЕПК был выбран метод пошаговой регрессии. В результате из 10 показателей Cj были отобраны те, которые вносят наибольший вклад в вариацию зависимой переменной Y. По результатам моделирования были разработаны модели оценки трудности ТМ на основе ЕПК:

для первого набора ЕПК: Xj—Cj,j=l,„m, (/?"'= 0,833):

Y!(x,...xJ=-4.827+0.721 *Cr0.262*C3+0.009*Cj+ (8)

+0.136 *С4+0.044 *Ст+0.085*С, для второго набора ЕПК: x=Cj,j=l...m, (R2=0,821)

Y2(x,...XJ= -2,996+0.052*С2+0.021 *С3+0.071 *СА

(9)

+0.169*С,+0.152 *СГ0.308*С,„

Положительные значения коэффициентов в моделях указывают на прямо пропорциональное влияние на отклик, а отрицательные на обратно пропорциональное влияние.

В результате статистической обработки опытных данных были рассчитаны нормированные значения единичных показателей, разработана модель комплексной оценки ТМ и построена шкала диапазонов уровня читабельности ТМ. Методами регрессионного анализа были разработаны аддитивные модели априорной оценки качества ТМ по критерию «трудность» ТЗ. Достоверность всех полученных в ходе исследования статистических данных была подтверждена соответствующими критериями.

В третьей главе разработаны функциональные модели организации процесса оценки и контроля качества ТМ на этапе их создании. Рассмотрена структура автоматизированной системы тестирования ACT-ДО, приводится ее концептуальная и информационно - логическая модели, дается описание режимов работы ACT и назначение основных подсистем и баз данных (БД).

Исследование жизненного цикла ТМ и существующего процесса оценки и контроля качества ТМ в вузе (на примере Астраханского государственного университета) позволило выявить существенные недостатки данного процесса, сделать вывод о его неэффективности и определить основные пути совершенствования. По результатам анализа была разработана функциональная модель процесса оценки и контроля качества ТМ, содержащая новый вид контроля - технический (рис. 3), который состоит из:

1) контроля соответствия вводимых в ACT ТМ ее техническим требованиям;

2) контроля правописания, для реализации которого могут быть использованы существующие методы компьютерной лингвистики;

3) контроля сложности формулировок, выполняющего оценку читабельности и трудности содержания ТМ до начала их практического использования в учебном процессе.

В результате анализа предметной области были выявлены задачи, подлежащие автоматизации и разработана автоматизированная система тестирования ACT-ДО (свидетельство об официальной регистрации программ для ЭВМ Роспатента № 2007611447 от 6 апреля 2007 г.).

мрнтра тестирования

Рисунок 3. Функциональная модель процесса организации технического контроля

ACT-ДО представляет собой комплекс программ, ориентированный на организацию и проведение электронного тестирования. Цель ACT - обеспечить весь технологический цикл от создания тестов и проведения тестирования на автономных компьютерах, в локальной сети и через Интернет, до статистического анализа результатов и оценки качества ТМ.

С использованием методов структурного и системного анализа построены диаграммы потоков данных и семантическая модель системы. На основе анализа ER - модели разработана структура базы данных, реализованы связи, хранимые процедуры и ключи для поддержания целостности данных в БД.

ACT-ДО обеспечивает локальную и сетевую работу пользователей системы, к которым относятся администратор, разработчик, тестирующийся. В качестве основных технологий при проведении тестирования используются технологии Internet и Intranet. Формирование и наполнение базы ТМ может осуществляться посредством импортирования в серверную базу ТМ файла, созданного в локальном конструкторе. При работе в сети ТМ хранятся на сервере базы данных. В структуре ACT-ДО выделены следующие модули (рис. 4):

1) локальный конструктор предназначен для формирования структуры и содержания ТМ, редактирования элементов, оценки сложности формулировок ТМ, генерации тестов и формирования файлов для их экспорта в сетевой модуль системы;

2) панель администратора предназначена для создания и мониторинга базы пользователей и тестов, организации проведения электронного тестирования;

3) проигрыватель тестов предназначен для проведения электронного тестирования.

Рисунок 4. Архитектура АСТ - ДО

Основными компонентами ACT являются: локальная и сетевая БД тестовых материалов, БД пользователей, БД статистики тестирований и подсистемы различного назначения.

Отличительной особенностью разработанной ACT является наличие подсистемы оценки сложности формулировок ТМ, с помощью которой автор ТМ может оценить читабельность ТМ, а также определить их трудность уже на этапе разработки ТЗ.

В четвертой главе был проведен анализ качества разработанных моделей и выполнена оценка эффективности разработанной автоматизированной системы тестирования.

В качестве основных требований, предъявляемых к математическим моделям, являются требования точности и адекватности.

Анализ точности модели комплексной оценки читабельности (2) - (5) проведен путем сравнения результатов, полученных в ходе моделирования, и оценок экспертов, которые были приняты в качестве истинных. При планировании эксперимента в качестве опытных образцов были использованы ТЗ различного уровня трудности по различным дисциплинам. Число опытных ТЗ составило: для модели Qj - 200, для модели Q2 - 150, для модели Q3 - 120, для модели Q4 - 170. В роли экспертов выступили преподаватели, которым было предложено определить читабельность ТЗ по категориям: 1 - легкое, 2 -нормальное, 3 - сложное.

Рисунок 5. Анализ точности модели комплексной оценки читабельности

Обработка результатов проведения эксперимента заключалась в подсчете количества ТЗ, отнесенных экспертами и моделью в разные группы уровней читабельности ТМ. По результатам проведенных исследований была построена сравнительная диаграмма (рис. 5), и сделаны выводы:

1) относительная максимальная погрешность изменяется в диапазоне 2,86 < Ея <7,81%;

2) наибольшей точностью оценки читабельности ТМ обладает модель £>2, у которой максимальная относительная погрешность составляет Ет=4,55%, а наименьшей - модель (?., с погрешностью Ет=7,81%;

3) разработанные модели оценивают ТМ, имеющие уровень читабельности:

• «легкий» с погрешностью 2,86 < Ет < 6,25 %;

• «нормальный» с погрешностью 4,23 <£,„ <7,81 %;

• «сложный» с погрешностью 4,55 < Ет < 7,69 %.

При анализе точности моделей оценки трудности ТМ обработка результатов проведения эксперимента заключалась в подсчете значения трудности ТЗ по моделям (6)-(9), расчете значений относительных погрешностей и сравнении полученных результатов. В качестве истинных значений были приняты значения трудности ТЗ. По результатам проведенных исследований была построена сравнительная диаграмма (рис.6, рис.7) и сделаны выводы: 1) относительная максимальная погрешность моделей изменяется в диапазоне 5,2 <Ет <14,7%;

оцениваемые модели ■ легкие □ нормальные □ сложные

Рисунок 6. Анализ точности модели оценки Рисунок 7. Анализ точности модели оценки трудности ТЗ на основе комплексного трудности ТЗ на основе единичных

показателя читабельности показателей читабельности

2) наибольшей точностью обладает модель 4(0,2), оценивающая трудность ТЗ на основе комплексного показателя ()2, у которой максимальная погрешность составляет Ет=6,3%, а наименьшей - модель ¡■¡■■■хт), оценивающая трудность ТЗ на основе С}, с погрешностью Е„,=14,7%;

3) разработанные модели оценивают трудность ТЗ, имеющие уровень:

• «легкий» с погрешностью 5,2 < £„, < 11,4 %;

• «нормальный» с погрешностью 6,3 < Ет <14,7 %;

• «сложный» с погрешностью 5,9 < Ет < 9,7 %.

Оценка адекватности выполнялась на основе критериев Стьюдента (<) и Фишера (_/■). Табличные значения критериев Стьюдента и Фишера Гц были определены при значении доверительной вероятности Р=0,95. В результате анализа было установлено, что фактические значения по обоим критериям удовлетворяют условиям достоверности (^Т7,,, /</„), следовательно, гипотеза о случайном расхождении средних значений и дисперсий в исследуемых выборках подтверждается, а полученные модели адекватны.

Разработанная автоматизированная система тестирования АСТ-ДО была внедрена в Пензенском государственном университете на кафедре КиПРА,

Бийском филиале Современной Гуманитарной академии и Астраханском государственном университете, о чем свидетельствуют акты о внедрении. Анализ эффективности от внедрения АСТ-ДО выполнялся в отношении числа «отбракованных» ТЗ и ошибок, допускаемых авторами при подготовке ТМ (рис. 8, рис.9).

доля oт6palcoвв^»^ыx ТЗ □ до □после

пг

л 25 -

15 - 1 —

* к о ИЗтп 'Ш

|н*дд о то еле • недр. ...»

Рисунок 8. Анализ эффективности процесса Рисунок 9. Анализ эффективности процесса

разработки н оценки качества ТМ с разработки и оценки качества ТМ с

использованием АСТ-ДО в отношении числа использованием АСТ-ДО в отношении

«отбракованных» ТЗ ошибок, допускаемых авторами

Анализ эффективности в отношении числа «отбракованных» ТЗ показал, что в среднем их число сократилось в 2 раза. Анализ эффективности в отношении числа ошибок, допускаемых авторами, показал, что использование АСТ-ДО при подготовке ТМ позволило сократить в среднем число ошибок: технологических в 1,33 раза, грамматических в 1,43 раза, методических в 1,48 раза и исключить технические ошибки.

В целом, предложенные модели комплексной оценки читабельности и трудности ТЗ, реализованные в «АСТ-ДО», позволяют повысить эффективность процесса разработки и оценки качества ТМ до начала их практического использования в результате улучшения функций технического контроля, обеспечивающего автора автоматизированной поддержкой в отношении контроля качества содержания ТМ в процессе их разработки.

В заключении формулируются основные результаты диссертационной работы.

Приложения содержат исходные статистические данные экспериментальных исследований, функциональные и информационные модели, акты, подтверждающие результаты работы, свидетельства о госрегистрации программ ЭВМ.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

В ходе теоретических и экспериментальных исследований, выполненных в диссертационной работе, получены следующие научные и практические результаты:

1) Анализ существующих подходов и методов оценки качества тестовых материалов позволил выявить основные недостатки и факторы, затрудняющие их использование при оценке качества ТМ в вузе и сделать вывод о

необходимости разработки методов, позволяющих оценивать качество ТМ в процессе их подготовки. В качестве решения было предложено оценивать качество ТМ на основе их читабельности, которая рассчитывается по количественным характеристикам, например, общего количества слов, средней длины предложений и средней длины слов.

2) С учетом конструктивных особенностей ТЗ номенклатура единичных показателей, используемая в существующих моделях оценки читабельности, была расширена с 2 до 10. Нормированные значения рассчитаны для двух наборов единичных показателей с использованием вероятностно -статистических методов. Вклад каждого единичного показателя в комплексную оценку определен с учетом экспертных оценок.

3) Разработана модель комплексной оценки читабельности тестовых материалов. Построена шкала диапазонов для определения уровня читабельности тестовых материалов. Проведена оценка качества модели и доказана ее адекватность.

4) Разработаны корреляционно - регрессионные модели оценки трудности тестовых заданий, позволяющие на основе показателей читабельности априорно предположить трудность тестового задания. Проведена оценка качества моделей и доказана их адекватность.

5) Разработана функциональная модель технологического процесса оценки и контроля качества тестовых материалов, имеющая дополнительный вид контроля - технический, целью которого является организация проведения оценки и контроля качества тестовых материалов до начала их практического применения.

6) По результатам диссертационного исследования разработана автоматизированная система тестирования, которая была внедрена в учебный процесс в Бийский филиал Современной Гуманитарной академии, на кафедре КиПРА Пензенского государственного университета и в Астраханском государственном университете. Внедрение ACT-ДО в целом позволило повысить эффективность процесса разработки и оценки качества тестовых материалов, используемых в учебном процессе данных вузов.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ В изданиях, рекомендованных ВАК РФ:

1. Окладникова, C.B. Формирование системы весовых коэффициентов интегрального критерия, оценивающего фактическую сложность формулировок тестовых заданий /C.B. Окладникова// Научно - технический и производственный журнал «Вестник компьютерных и информационных технологий»/ г. Москва: Машиностроение. - 2009. - №6. - С.46-50. - ISSN 18107206.

2. Окладникова, C.B. Количественная оценка содержания тестового заданий для компьютерного тестирования /C.B. Окладникова// Изв. Волг! ГУ, Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах»: межвуз. сб. научн. ст. /г. Волгоград: ВолгГТУ. - 2007. -Вып. 3, №9(35). - С.88-90. -ISSN 1990-5297.

3. Окладникова, C.B. Разработка алгоритма контроля и управления соответствия тестовых материалов правилам русского языка /C.B. Окладникова// Изв. ВолгГТУ, Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах»: межвуз. сб. научн. ст. / г. Волгоград: ВолгГТУ. - 2008. - Вып. 5, № 8(46). - С.108-111. - ISSN 1990-5297.

4. Лунев, А.П. Управление качеством разработки тестовых материалов с применением современных информационных технологий /А.П. Лунев, C.B. Окладникова// Журнал фундаментальных и прикладных исследований «Естественные науки»/ г. Астрахань: Издательский дом «Астраханский университет». - 2008. - №1(22). - С.75-80. - ISSN 1818-507Х.

В прочих изданиях:

5. Петрова, И.Ю. Общие принципы организации внутривузовского контроля и управления качеством образовательных тестовых материалов на этапе их разработки/И.Ю. Петрова, C.B. Окладникова//Научно - технический журнал «Прикаспийский журнал: управление и высокие технологии»/ г. Астрахань: Издательский дом «Астраханский университет». - 2008. - №4(4). - С. 72-76.

6. Брумштейн, 10. М. Использование идеологии пробит - анализа при обработке результатов тестового контроля знаний /Ю.М. Брумштейн, C.B. Окладникова// Журнал «Естественные и технические науки»/ г. Москва: «Компания Спутник +». - 2006. - №3(23). -С. 184-185. - ISSN 1684-2626.

7. Окладникова, C.B. Автоматизированная система тестирования, расширенная подсистемой оценки качества объектов тестового материала до начала их практического использования /C.B. Окладникова//Научно - технический журнал «Образовательные технологии»/ г.Воронеж: ВГПУ. - 2007. - №2. - С.78-81. -ISSN 1815-6851.

8. Окладникова, C.B. Анализ существующих методов оценки качества тестовых материалов/ C.B. Окладникова// Научно - технический журнал «Прикаспийский журнал: управление и высокие технологии»/ г. Астрахань: Издательский дом «Астраханский университет». - 2008. - №1(1). - С.77-82.

9. Брумштейн, Ю. М. О возможных направлениях формального анализа качества тестовых материалов для контроля знаний/Ю.М. Брумштейн, C.B. Окладникова// II-nd International Conference «Modern (е-) Learning: материалы 2 Междунар. конф., 1-5 июля 2007/ Болгария, София. - 2007. - С. 65-69.

10. Окладникова, C.B. Технология разработки тестовых заданий по дисциплине «Документоведение» и их использование в учебном процессе/С.В.

Окладникова, Т.Г. Гурская// Россия и Восток. Обучающееся общество и социально-устойчивое развитие Каспийского региона: материалы III Междунар. научн. конф., 21-22 апреля 2005 года /г. Астрахань: Издательский дом «Астраханский университет». - 2005. -С. 215 - 220.

11. Окладникова, C.B. Анализ ошибок формирования содержательной части тестовых заданий/ C.B. Окладникова // Проблемы информатизации образования: региональный аспект: материалы всероссийской НПК 27-29 апреля 2006 года /г. Чебоксары: Издательство JI. А. Наумова. -2006. - С. 243-246.

12. Окладникова, C.B. Обзор методов разработки тестовых материалов/С.В. Окладникова// Инновационные технологии в управлении, образовании, промышленности «АСТИНТЕХ-2008»: материалы Всероссийской научн. конф. 15-17 апреля 2008 года/ г. Астрахань: Издательский дом «Астраханский университет». -2008. - С. 40 - 42.

13. Окладникова, C.B. Свидетельство №2007611447о госрегистрации программы для ЭВМ. «Автоматизированная система тестирования для дистанционного обучения на основе алгоритмов адаптивного управления АСТ_ДО»/С.В. Окладникова, М.В. Таюшев. - Заявл. 12.02.07; Зарег. 06.04.07. -М.: Федеральный институт промышленной собственности Федеральной службы по интеллектуальной собственности (Роспатент), 2007.

14. Окладникова, C.B. Свидетельство №2007611447о госрегистрации программы для ЭВМ. «Автоматизированная система тестирования для дистанционного обучения на основе алгоритмов адаптивного управления АСТ_ДО»/С.В. Окладникова, Р.Н. Вахитов. - Заявл. 31.05.07; Зарег. 09.06.07. -М.: Федеральный институт промышленной собственности Федеральной службы по интеллектуальной собственности (Роспатент), 2007.

Заказ № 1874. Тираж 100 экз. Уч.-изд. л. 1,3. Усл. печ.л.1,2.

Оттиражировано в Издательском доме «Астраханский университет» 414056, г. Астрахань, ул. Татищева, 20 Факс (8512)25-17-18, тел. (8512)54-01-87, 54-01-89; E-mail: asupress@yandex.ru

Оглавление автор диссертации — кандидата технических наук Окладникова, Светлана Владимировна

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ ПОДХОДОВ И МЕТОДОВ ОЦЕНКИ КАЧЕСТВА ТЕСТОВЫХ МАТЕРИАЛОВ:.

1.1. Особенности разработки тестовых материалов.

1.1.1. Методы формирования содержания тестовых материалов.

1.1.2. Требования, предъявляемые к содержанию тестовых материалов.

1.1.3. Конструктивные особенности формы тестовых заданий.

1.1.4. Основные компоненты содержания тестовых заданий.

1.2. Показатели качества тестовых материалов.19'

1.2.1. Показатели качества тестов.

1.2.2. Показатели качества тестовых заданий.

1.3. Методы оценкн качества тестовых материалов.

1.3.1. Экспериментально — статистические методы.

1.3.2. Педагогические методы.

1.4. Модели оценкн читабельности текстов.

1.4.1. Определение термина «читабельность».

1.4.2. Критерии формальной оценки читабельности.

1.4 3. Методы оценки читабельности текстов.

1.5. Анализ автоматизированных систем .тестирования.

1.6. Выводы.

ГЛАВА 2. РАЗРАБОТКА МОДЕЛЕЙ КАЧЕСТВА ТЕСТОВЫХ МАТЕРИАЛОВ.

2.1. Выбор методологии оценкн уровня читабельности тестовых материалов.

2.2. Разработка номенклатуры единичных показателей.

2.3. Нормирование единичных показателей на основе вероятностно — статистических методов.

2.3.1. Получение и анализ фактических данных нормируемых показателей.

2.3.2. Расчет нормируемого показателя «количество формул» с учетом сложности формул.

2.4. Формирование системы весовых коэффициентов единичных показателей на основе экспертных оценок.

2.5. Комплексная оценка/читабельности тестовых материалов с учетом присутствующих в содержании тестовых заданий компонентов.

2.6. Построение корреляционно - регрессионной модели оценки трудности тестовых заданий на основе их .читабельности.

2.6.1. Основные положения регрессионного анализа.

2.6.2. Расчет показателя «трудность» тестового задания.

2 6 3. Построение корреляционно - регрессионной модели на основе комплексного показателя читабельности.

2.6.4. Построение корреляционно —регрессионной модели на основе единичных показателей читабельности.

2.7. Выводы.

ГЛАВА 3. АВТОМАТИЗАЦИЯ ПРОЦЕССА ОЦЕНКИ И КОНТРОЛЯ КАЧЕСТВА ТЕСТОВЫХ МАТЕРИАЛОВ НА ЭТАПЕ РАЗРАБОТКИ.

3.1. Организация технологического процесса оценкн и контроля качества тестовых материалов в вузе.

3.2. Разработка модели процесса автоматизированной оценки и контроля качества тестовых материалов.

3.3. Разработка автоматизированной системы тестирования.

3.3.1.Архитектура автоматизированной системы тестирования.

3.3.2. Информационно — логическая модель системы.

3.3.3. Работа системы в локальном режиме.

3.3.4. Работа системы в сетевом режиме.

3.4. Выводы.

ГЛАВА 4. ОЦЕНКА КАЧЕСТВА РАЗРАБОТАННЫХ МОДЕЛЕЙ.

4.1. Требования, предъявляемые к качеству математических моделей.

4.2. Анализ качества модели комплексной оценки читабельности тестовых материалов.

4.2.1. Определение точности модели.

4.2.2. Определение адекватности модели.

4.3. Анализ качества моделей оценки трудности тестовых заданий.104.

4.3.1. Определение точности моделей.

4.3.2. Определение адекватности моделей.

4.4. Оценка эффективности подготовки тестовых материалов с использованием системы АСТ-ДО.

4.5. Выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Окладникова, Светлана Владимировна

В настоящее время в вузах электронное тестирование, как метод оценки уровня знаний учащихся, приобретает все большую популярность. Это обусловлено' изменением системы высшего образования в рамках реализации основных принципов Болонского процесса, в частности с появлением новых подходов к оценке качества образовательного процесса в вузе [34, 35, 37, 38, 68, 73, 100].

В странах, использующих высокоэффективные технологии и методики диагностики качества образования, разработкой, проверкой и тиражированием контрольных тестовых материалов* (ТМ) занимаются специальные организации, например, в США - Educational Testing Service ETS (www.ets.org), в Польше - Ценр тестирования^ (http://oke.krakow.pl), в Великобритании* - The Qualifications and Curriculum Authority QCA (http://www.qca.org.uk), в Белоруссии - Республиканский институт контроля знаний (http://rikz.unibel.by), в Казахстане - Национальный центр государственных стандартов, образования и тестирования (http://naukakaz.kz/ru), в России - Федеральный институт педагогических измерений (http://www.fipi.ru).

Несмотря на растущую популярность государственной системы тестирования, в России до сих пор существует несогласованность в работе по созданию ТМ [14, 41, 65, 105]. Долгое время этому способствовало отсутствие теоретической основы (почти вся содержательная литература по тестированию была иностранной), которая позволяла бы не только написание авторских тестов, а построение тестов с единых позиций. На сегодняшний день большую часть используемых в учебном процессе ТМ составляют материалы, разработанные преподавателями учебных заведений в рамках преподаваемых ими дисциплин [59]. Популярность их использования обусловлена, в первую очередь, адаптивностью по отношению к преподаваемому материалу, ориентацией на педагогические потребности небольшого количества учащихся и т.п.

Структурной составляющей ТМ являются тестовые задания? (ТЗ), содержание которых, как правило, формируется преподавателями* вручную и целиком зависит от индивидуальных особенностей автора; например, грамотности, стиля изложениями т.п., а при подготовке тестовых вопросов для проведения ) электронного * тестирования и от уровня- компьютерной грамотности. Отсутствие у многих преподавателей знаний, в? области тестологии приводит к нарушению; требований,, предъявляемых^ к-; структуре, содержанию и оформлению ТЗ согласно международному стандарту IMS QTI и системы менеджмента качествам применительно к;, разработке, производству и реализации тестов и программных продуктов [102].

Традиционно в качестве основных: критериев качества ТМ рассматривают валидность и надежность, расчет количественных значений которых осуществляется с использованием; экспериментально -статистических методов, основанных на эмпирической обработке результатов тестирования испытуемых; [1, 2, 3, 9, 10, 11]. Трудности, связанные с применением« данных методов в вузах обусловлены:

• необходимостью^ наличия большого объема статистической выборки результатов тестирования, достаточного для получения достоверных данных анализа;

• потерей актуальности в содержании тестовых материалов,, вызванной длительным периодом накопления: необходимой статистической информации;

• отсутствием диагностики причины «выбраковки» ТЗ;

• слабым владением преподавателями; — предметниками методами и средствами анализа результатов тестирования;

• наличием специалиста в области тестологии, владеющего методами интерпретации полученных результатов анализа;

• наличием специальных программ (или программных модулей);

В; результате возникает потребность в разработке методов автоматизированной оценки качества ТЗ до начал их практического использования; которые позволили^ бы повысить как качество^ самих тестовых заданий; так и эффективность, процесса создания- ТМ. Одним из возможных способов решения поставленной задачи« является оценка читабельности содержания ТМ, основанная* на\ анализе; количественных показателей формулировок ТЗ, характеризующих стиль изложения? материала м степень его шонимания целевой аудиторией;

Объектом< исследования является- процесс разработка и: оценки-качества ТМ на этапе их создания.

Предметом исследования являются модели оценки* качества ТМ в: процессе разработки и ¡ способы автоматизации этого процесса:

Цель работы: повышение эффективности процесса? разработки ТМ с оценкой их качества до начала практического использования на , основе исследования; моделей и последующей- автоматизации процесса подготовки-ТМ.

Для достижения поставленной цели были выделены следующие задачи:

1) провести анализ методологических подходов оценки качества ТМ, обобщить и систематизировать существующие" методы оценки восприятия текстов и выбрать те, которые в наибольшей степени соответствуют цели исследования;

- 2) установить совокупность единичных показателей, характеризующих основные свойства содержания ТЗ и позволяющих количественно оценить: восприятие ТМ, рассчитать их нормированные значения и определить вклад каждого показателя в комплексную оценку;

3) разработать; модель комплексной^ оценки читабельности ТМ, учитывающую специфику содержания предметной области ТЗ и присутствующие в их формулировках компоненты (текст, формулы, цифры и т.п.); построить шкалу диапазонов значений комплексного показателя для определения уровня читабельности ТМ;

4)< разработать корреляционно - регрессионные модели- оценки «трудности» ТЗ на основе показателей читабельности до начала их использования в учебном процессе; проверить адекватность разработанных моделей и оценить/точность полученных с их помощью данных;

Научная новизна работы. В диссертации разработаны и вынесены на защиту следующие основные положения:

1) Существенно расширена система единичных показателей читабельности, позволяющая с учетом конструктивных особенностей 1 тестовых заданий и компонентов, присутствующих в формулировках, оценивать их качество на этапе разработки.

2) Впервые рассчитаны нормированные значения единичных показателей оценки читабельности русскоязычных тестовых материалов на основе вероятностно — статистических методов.

3) Разработана модель комплексной оценки читабельности тестовых материалов и построена шкала диапазонов определения уровня читабельности.

5) Разработаны функциональные и информационно - логические модели процесса организации оценки и контроля качества тестовых материалов на этапе их создания, отличающиеся-применением международных стандартов системного структурного анализа IDEF и реализованные в автоматизированной системе тестирования.

Практическая. ценность работы- заключается^ в создании h автоматизированной системы тестирования, обеспечивающей автора автоматизированной поддержкой в отношении контроля качества ТМ в процессе их разработки, позволяющей повысить эффективность процесса разработки ТМ и обеспечить более качественную их подготовку за счет сокращения числа «отбракованных» ТЗ в среднем в,2 раза.

Реализация результатов работы. Разработанная система тестирования (ACT-ДО) была внедрена в Астраханском государственном университете в -рамках международного - проекта JEP 250702004 «Модернизация образования в. сфере ИКТ в, университетах юга России» (MEICTRU), в Пензенском государственном университете для организации учебного процесса на кафедре КиПРА, в Бийском филиале Современной Гуманитарной академии в рамках реорганизации учебного процесса в связи с переходом к блочно — модульному обучению по Болонскому соглашению.

Апробация работы. Основные положения и результаты диссертационной работы докладывались на III Международной научной конференции «Россия и Восток. Обучающееся общество и социально-устойчивое развитие каспийского региона» (Астрахань, 2005 г.); Всероссийской научно-практической конференции "Проблемы информатизации образования: региональный аспект" (Чебоксары, 2006 г.); Всероссийской научной конференции «Инновационные технологии в управлении, образовании, промышленности «АСТИНТЕХ-2007» (Астрахань, 2007 г.); Международной конференции «Компьютерные науки и информационные технологии» (Саратов, 2007 г.); II-nd International Conference on Modern (е-) Learning (Varna, Bulgaria, 2007 г.); 1-ой

Международной научно-технической конференции «Эволюция системы научных коммуникаций ассоциации университетов прикаспийских государств» (Астрахань, 2008 г.); научных конференциях профессорско-преподавательского состава Астраханского государственного университета (Астрахань, 2005 - 2008).

Структура и объем диссертации.

Заключение диссертация на тему "Модели оценки качества тестовых материалов на этапе разработки"

4.5. Выводы $

Основными требованиями-к качеству разработанных моделей являются требование точнрсти и адекватности. Точности определяется путем , сравнительной» оценки данных, полученных с помощью модели в результате эксперимента и данных, которые были приняты в качестве истинных.

При анализе точности модели комплексной оценки читабельности в качестве истинных были приняты оценки экспертов, при анализе моделей оценки трудности ТЗ - значения трудности, рассчитанные путем статистической обработки сырых баллов, полученных в ходе эксперимента методами современной теории тестирования.

Анализ точности в отношении моделей комплексной оценки читабельности ТМ показал, что наиболее точно читабельность оценивается на основе модели (£2, состоящей из следующего набора показателей: С], С2, Сз, С4 (4,55 %). Наименее точно читабельность оценивается на основе модели 0,4, состоящей из набора показателей: С1, Сг, С3, С4 Сю (7,81 %). При этом наиболее точно оцениваются ТЗ, имеющие уровень читабельности «легкий» (6,25 %), а с наименьшей точностью оцениваются ТЗ, имеющие уровень - «нормальный» (7,81 %).

Анализ точности в отношении моделей>оценки трудности ТЗ.на основе комплексной оценки читабельности показал, что наиболее точно трудность оценивается на основе модели (6,3 %). Наименее точно - на основе модели У((¿4) (10,3%). Наиболее точно оцениваются ТЗ, имеющие уровень трудности «легкий» (6,8 %), а с наименьшей« точностью оцениваются ТЗ, имеющие уровень - «нормальный» (10,3 %).

Анализ точности в отношении моделей оценки трудности ТЗ на основе единичных показателей читабельности показал, что наиболее точно трудность оценивается на основе модели Г/ (10,3 %). Наименее точно — на основе модели У2. (14,7 %). Наиболее точно оцениваются ТЗ, имеющие уровень трудности '«легкий» (11,4 %), а с наименьшей точностью оцениваются ТЗ, имеющие уровень - «нормальный» (14,7 %).

Оценка адекватности выполнялась на основе критериев Стьюдента (/) и Фишера (К). Табличные значения критериев Стьюдента и Фишера были определены при значении доверительной вероятности Р=0,95. В результате анализа было установлено, что фактические значения по обоим критериям удовлетворяют условиям достоверности следовательно, гипотеза о случайном расхождении средних значений и дисперсий в исследуемых выборках подтверждается, а полученные модели адекватны.

Внедрение АСТ-ДО в учебный процесс различных вузов позволило сократить время, необходимое на разработку ТМ. Реализованная в системе автоматизированная поддержка в отношении контроля грамматических, технических и методических ошибок позволила сократить число «отбракованных» ТЗ.

ЗАКЛЮЧЕНИЕ

1) Анализ существующих подходов и методов оценки, качества тестовых материалов позволил выявить основные недостатки и факторы, затрудняющие их использование при оценке качества ТМ в вузе и сделать вывод о необходимости разработки методов, позволяющих оценивать качество ТМ в процессе их подготовки. В качестве решения* было предложено оценивать качество ТМ на основе их читабельности, которая рассчитывается по количественным характеристикам, например, общего количества слов, средней длины предложений и средней длины слов.

2) С учетом конструктивных особенностей? ТЗ номенклатура единичных^ , показателей, используемая в существующих моделях оценки читабельности, была расширена с 2 до 10. Нормированные значения рассчитаны для. двух наборов единичных показателей с использованием вероятностно -статистических методов. Вклад каждого единичного показателя в комплексную оценку определен с учетом экспертных оценок.

4) Разработаны корреляционно — регрессионные модели оценки трудности тестовых заданий, позволяющие на основе показателей читабельности априорно предположить трудность тестового задания. Проведена оценка качества моделей и доказана их адекватность.

Библиография Окладникова, Светлана Владимировна, диссертация по теме Управление в социальных и экономических системах

1. Hambelton, R.K. Fundamentals of Item Response Theory Text. / R.K. Hambelton, H. Swaminathan, H.J. Rogers. Sage publications, 1991.

2. Linden, W.J. Handbook of modern item response theory. Text. / W J. Linden, R.K. Hambelton New York, 1997.

3. Lord, F.M. Statistical Theories of Mental Test Scores Text. / F.M. Lord, M. Novic. Mass.: Addison-Wesley Publ. Co. Reading, 1968.

4. On-line тесты Электронный ресурс. / Тест-центр — Электронный данные. Режим доступа: test-center.narod.ru//, свободный: - Заглавие с экранам - Яз. рус.

5. Rasch,. G. Probabilistic Model for Some Intelligence and Attainment Tests Text. / G. Rasch. Chicago: Univ. of Chicago Press, 1980.

6. Russian Morphological Dictionary Электронный ресурс. / Организация — Электронные данные. 2007. - Режим доступа: http: //www.geocities.com/SiliconVairey/Bit/1116/, свободный. - Заглавие с экрана. -Яз. рус., анг.

7. Thorndike, R.L. Educational measurement. Text. /R.L. Thorndike -Washington, DC: American Council of Education, 1971.

8. Wordy Tabulator v2.2 Электронный ресурс. / Русская виртуальная библиотека. — Электронные данные. 2003. - Режим доступа: http://www.rvb.ru/soft/index.html, свободный. - Заглавие с экрана. - Яз. рус.

9. Wright, B.D. Best Test Desighn. Text. / B.D. Wright, M.N. Stone Chicago: MESA Press, 1979.

10. O.Wright, B.D. Rating scale analysis. Rasch measurements Text. / B.D. Wright, Masters G.N. Chicago: MESA Press, 1982.

11. П.Аванесов, B.C. Композиция тестовых заданий Текст. / B.C. Аванесов -М.: Центр Тестирования, 2002.-239 с. ISBN 5-94635-071-4

12. Анастази, А. Психологическое тестирование Текст. / Анна Анастази, Сьюзен Урбина; пер. с англ. под ред. А.А. Алексеева. — 7-е межд. изд., перераб. и доп. СПб.: Питер, 2007. - 102 с. - ISBN*5-272-00106-0

13. Анохин А.Н. Методы экспертных оценок. Учебное пособие. Текст. / А.Н. Анохин 1996. - Обнинск: ИАТЭ - 148 с.

14. Арефьев, В.П. Компьютерные технологии контроля качества инженерного образования«Текст./ В.П. Арефьев, А.А. Михальчук //Открытое и дистанционное образование.- 2005. -№ 4. С. 21-27.

15. Аристов, О.В. Управление качеством: учебное пособие для вузов Текст. /О-В. Аристов. М.: Инфра-М, 2004 г. - 240 е.: ил. - ISBN:.5-16001953-7.

16. Балыхина, Т.М. Словарь терминов и понятий тестологии Текст. / Т.М. Балыхина. 2-е изд. - М.: Юнити-Дана, 2006. - 161 с. - ISBN: 5883371264

17. Башмаков, А. И. Разработка компьютерных учебников и обучающих систем Текст./ Башмаков А. И., Башмаков И. А. М.: Информационно-издательский дом «Филинъ», 2003. - 616 с. - ISBN 5-9216-044-Х

18. Белов, А.А. Качество тестовых материалов. Текст. /А.А. Белов// Университетское образование: сб. научн. тр. IX Международной научно-методической конференции 14-15 апреля 2005. — Пенза: ПДЗ, 2005 — С. 94-96.

19. Бершадский A.M. Актуальные проблемы компьютерного контроля знаний Текст./ A.M. Бершадский, A.A. Белов, Р.И. Вергазов, И.Г. Кревский// Вестник компьютерных и информационных технологий 2005. — № 1 - С.40-48.

20. Болотов, В.А. Системы оценки качества образования: учебное пособие Текст./ В.А. Болотов, Н.Ф. Ефремова. -М: Логос-М, Университетская книга, 2007. 192 с. - ISBN: 5-98704-135-Х

21. Брумштейн, Ю. М. Использование идеологии пробит анализа при обработке результатов тестового контроля знаний. Текст. / Ю. М. Брумштейн, C.B. Окладникова // Естественные и технические науки. - 2006. -№3(23). С. 184- 185.

22. Васильев, В.И. Требования к программно-дидактическим тестовым материалам и технологиям компьютерного тестирования. Текст. / В.И. Васильев, А.А Киринюк, Т.Н. Тягунова М.: МГУП, 2005. — 29 с. - ISBN 58122-0860-3

23. Вендров, А.М. Практикум по проектированию программного обеспечения экономических информационных систем: учебное пособие. Текст./ А.М. Вендров. -М.: Финансы и статистика, 2002. 192 е.: ил. - ISBN 5-279-024406

24. Вендров, А.М. Проектирование программного обеспечения экономических информационных систем: Учебник. Текст. / А.М. Вендров. -М.: Финансы и статистика, 2000. 352 е.: ил. - ISBN 5-279-02144-Х

25. Виейра, Р. Программирование баз данных Microsoft SQL Server 2005 для профессионалов Текст. / Р. Виейра; пер .с англ. — М.: Диалектика, 2008. -1072 с. ISBN 978-5-8459-1329-6

26. Гласс, Дж. Статистические методы в педагогике и психологии Текст./ Дж. Гласс, Дж. Стэнли; пер. с англ. — М.: Прогресс, 1976. — 496 с.

27. Гребнев, А. Высшее образование в Болонском измерении: российские особенности и ограничения Текст./А. Гребнев// Высшее образование в Росси. 2004. -№1 С. 36-43.

28. Гретченко, A.A. Болонский процесс: интеграция России в европейское и мировое образовательное пространство Текст. / A.A. Гретченко, А.И. Гретченко. М.: КноРус, 2008. - 432 е.- ISBN 978-5-390-00364-0

29. Гужов, В.И. Система тестирования на основе автономных модулей Текст./ В.И. Гужов// Открытое и дистанционное образование. — 2004. — № 2. -С. 33-36.

30. Дроздова, Н.В. Модульный подход в системе высшего образования. Основы структурализации и метапознания Текст. / Н.В. Дроздова, А.П. Лобанов. -М.: РИВШ, 2008. 84 с. - ISBN: 978-985-500-154-7

31. Евтюхин, Н.В. Современное состояние методов тестирования знаний, и умений за рубежом и в России Текст./ Н.В. Евтюхин //Инновации в образовании. 2004. - № 1. - С. 27-47.

32. Елисеева, И.И. Общая теория статистики: Учебник Текст./ И.И. Елисеева, М.М. Юзбашев; под ред. И.И. Елисеевой 5-е изд., перераб. И доп. - М.: Финансы и статистика, 2004 - 656 е.: ил. - 5000 экз. - ISBN 5-27902414-7

33. Кальянов, Г.И. CASE структурный системный анализ (автоматизация и применение) Текст. / Г.И. Кальянов. М.: ЛОРИ, 1996. - 242 с. - ISBN 585582-011-4

34. Кинцель, Д.А. Нечисловой подход к моделям тестирования и оцениванию параметров тестовТекст./Д.А. Кинцель// Educational Technology & Society, 2007.-№ 10(1)-С. 76-81

35. Коллекция On-line тестов Электронный ресурс. / Центр компьютерного обучения при МГУ им. Н.Э. Баумана. Электронный данные. - Режим доступа: http://www.specialist.ru, свободный. — Заглавие с экрана. — Яз. рус.

36. Коллекция тестов Электронный ресурс. / Образовательный сервер тестирования— Электронный данные. Режим доступа: rostest.runnet.ru/, свободный. — Заглавие с экрана. - Яз. Рус.

37. Коллекция тестов» Электронный ресурс. / Открытый колледж. -Электронный данные. — Режим доступа: www.college.ru, свободный. -Заглавие с экрана. — Яз. рус.

38. Коллекция тестов Электронный ресурс. / Телетестинг. Электронный данные. - Режим доступа: www.teletesting.ru/, свободный. — Заглавие с экрана. — Яз. Рус.

39. Колпаков, A.B. Численный метод получения логитов из сырого балла. Электронный ресурс./ A.B. Колпаков. — Электронный ресурс. — 2006-Режим доступа: http://kolsarat.chat.ru/stat.htm, свободный. — Заглавие с экрана. Яз. рус.

40. Королько, В.Г. Основы паблик рилейшнз Текст./ В.Г. Королько. — М.: Рефл-бук, 2003. -528 с. ISBN: 966-543-048-3

41. Кривоносов, А.Д. PR-текст в системе публичных коммуникаций Текст. / А.Д. Кривоносов — 2-е изд., доп. СПб.: Петербургское Востоковедение, 2002.- 288 с. - ISBN-5-85803-215-Х

42. Кручинин, В.В. Система тестирования, основанная на генерации вопросов и тестовых заданий Текст. / В. В. Кручинин // Научно-практический журнал. Открытое образование 2004. - №4.-С.30-35.

43. Лингвоанализатор Электронный ресурс. / Русская фантастика; ред. Хмелев* Д.; Web- мастер Петриенко П. Электронные данные. - 2002— Режим доступа: http://www.rusf.ru/books/analysis/index.htm, свободный. — Заглавие с экрана. — Яз. рус.

44. Майоров, А.Н. Теория и практика создания тестов для системы образования Текст. / А.Н. Майоров М.: Интеллект-Центр, 2002 — 56 с. — ISBN 5-89790-115-5

45. Малюченко, П.Н. Программное обеспечение сравнительного анализа систем проверки орфографии. Электронный ресурс. / П.Н. Малюченко — Электронные данные. 2000.' - Режим доступа: http://www.malapetr.ru/, свободный. - Заглавие с экрана. - Яз. рус.

46. Мелецинек, А. Инженерная педагогика: практика передачи техническихgзнаний Текст. : учеб. пособие / А. Мелецинек; под ред. B.Mi Приходько. —

47. М.: МАДИ (ГТУ), 1998. 185 с.

48. Михеев, В.И. Моделирование и методы^ теории измерений в педагогике: Учебное пособие. Текст. / В.И.1 Михеев. М.: КомКнига, 2006. - 200 с. -ISBN 978-5-484-00469-0

49. Мкртчян, С.С. Повышение качества высшего образования и Болонский процесс. Обобщение отечественной и зарубежной практики Текст. / С.С. Мкртчян, Савельев А.Я., Трайнев В:А. Дашков и К, 2007 - 392 е.- ISBN: 978-5-91131-258-9

50. Морган, С. Проектирование и оптимизация доступа к базам данных Microsoft SQL Server 2005. Учебный курс Microsoft (+ CD-ROM) Текст. / С. Морган; пер .с англ. М.: Русская Редакция, 2008. - 480 с. - ISBN 978-57502-0151-8

51. Морфологический словарь. Электронный ресурс. / Автоматическая Обработка Текста. —Электронные данные. — 2007. — Режим доступа: http://www.aot.ru/download.php, свободный. — Заглавие с экрана. — Яз. рус.

52. Найденова, H.H. Формирование репрезентативной выборки: Учебное пособие. Текст. / Найденова H.H. М.: Логос, 2003. - 152 с. ISBN 5-94010263-8

53. Нейман, Ю.М. Введение в теорию, моделирования и параметризации педагогических тестов. Текст. / Ю.М. Нейман, В.А. Хлебников М.: Прометей, 2000. - 168 с. с табл. и ил. - ISBN 5-7042-1068-6

54. Никофоров, А.Д. Управление качеством: учебное пособие для вузов Текст. / А.Д. Никифоров. М.: Дрофа, 2004 г. - 720 е.: ил. - ISBN: 5-71076970-3.

55. Новиков, Д.А. Статистические'методы в педагогических исследованиях Текст. /Д.А. Новиков М.: МЗ-Пресс, 2004 -66 с. - ISBN: 5-94073-073-6

56. Образцов, П.И. Методика разработки критериально-ориентированных тестов по русскому языку и культуре речи для студентов технического университета Электронный ресурс./ П.И. Образцов.// Официальный сайт

57. Он-лайн тесты для профессионалов в области ИТ. Электронный ресурс. / Сетевая академия Ланит. Электронный данные. — Режим доступа: tests.academy.ru, свободный. - Заглавие с экрана. — Яз. рус.

58. Он-лайн тесты. Электронный ресурс. / Международная академия бизнеса. — Электронный данные. Режим доступа: www.iba.ru/menuleft/onlinetest.html, свободный. - Заглавие с экрана. - Яз. рус.

59. Он-лайн тесты; Электронный ресурс. / Система тестирования и проведения экзаменов, Электронный данные. - Режим доступа: www.ezamen.ru, свободный. - Заглавие с экрана. - Яз. рус.

60. Он-лайн тесты. Электронный ресурс. / Система тестирования и проведения экзаменов. Электронный данные. — Режим доступа: www.mozg.ru/, свободный. - Заглавие с экрана. — Яз. рус.

61. Орлов, А.И. Теория принятия решений: учебное пособие для вузов Текст. / А.И. Орлов. М.: Издательство «Экзамен», 2006 г. - 573 с. - ISBN: 5-472-01393-3.

62. Открытый сегмент Федеральной базы тестовых заданий.

63. Электронный ресурс./ Федеральный институт педагогических измерений. — Электронный данные. 2004-2009. - Режим доступа: http://www.fipi.ru/view/sections/141/docs/, свободный. - Заглавие с экрана. — Яз. рус.

64. Сел ко, Д: Программирование на SQL для, профессионалов. Текст. / Д. Селко. М.: Лори, 2004. - 442 с. - ISBN 0-55860-576-2

65. Семантические- словари. Электронный ресурс. / Автоматическая Обработка Текста. — Электронные данные. 2007. — Режим доступа: http://www.aot.ru/download.php, свободный. - Заглавие с экрана. - Яз. рус.

66. Смолин, Д.В. Методология, создания компьютерного теста Электронный ресурс. / Д.В. Смолин //Центр тестирования «Chopin» — Электронные данные. 2006.- Режим доступа: http://mcsmall.altnet.ru/DOCS/DOC/method.htm, свободный. - Заглавие с экрана. — Яз. рус.

67. Сысоева, Л.А. Информационно-семантические модели педагогических тестов Текст. /Л.А. Сысоева //Педагогическая диагностика. — 2005 №4. - С. 20-41

68. Тертычный, A.A. Жанры периодической печати: учебное пособие. Текст. / A.A. Тертычный 3-е изд., испр. и доп. - М.: Аспект Пресс, 2006. -232 с. - ISBN: 5-7567-0397-7

69. Требования к программно-дидактическим тестовым материалам

70. Электронный ресурс. / Испытательная лаборатория качества ПДТМ. — 2004.- Электронный^ данные. — Режим доступа: http://cmko.ulstu.ru/indexIL.php?adr=tpl/IL/TZIL.tpl, свободный. Заглавие с экрана. — Яз. рус.

71. Тягунова, Т. Н. Культура проектирования тестового задания: Текст. / Тягунова Т. Н. М: МГУП, 2006. — 300 с. - ISBN 5-8122-0723-2

72. Челышкова, М.Б. Теория и практика конструирования педагогических тестов: учебное пособие для вузов Текст. / М.Б. Челышкова. — М.: Логос-М, 2002. 432 с. - ISBN: 5-94010-143-7

73. Электронный архив коллекции тестов ЕГЭ Электронный ресурс. / Сервер информационной поддержки ЕГЭ. Электронный данные. - Режим доступа: www.ege.ru, свободный. — Заглавие с экрана. - Яз. рус.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00