480 likes | 756 Views
Влияние характеристик образовательной среды на результаты обучения в начальной школе (на основе SAM - Student Achievement Monitoring). Карданова Е.Ю. НИУ ВШЭ 201 3. Цели презентации. Рассказать про SAM Представить психометрические характеристики тестовых заданий и тестов
E N D
Влияние характеристик образовательной среды на результаты обучения вначальной школе (на основе SAM - Student Achievement Monitoring) Карданова Е.Ю. НИУ ВШЭ 2013
Цели презентации • Рассказать про SAM • Представить психометрические характеристики тестовых заданий и тестов • Представить свидетельства валидности • Описать методику оценивания и шкалирования участников тестирования SAM • Проанализировать факторы, влияющие на результаты
Цель SAM: оценивание предметных компетенций учащихся начальной школыпо математике и русскому языку Отличительная черта SAM : модель оценивания основана на теории Л. Выготского и предполагает оценивание компетенций учащихся на трех базовых уровнях: формальном, рефлексивном и функциональном
Особенности инструмента SAM: • SAM выполняет две функции: а) измерения учебной успешности и б) диагностики уровня освоения материала • Для каждого раздела учебного предмета разрабатываются задачи, соответствующие критериям трех уровней (формального, рефлексивного и функционального) • Каждый такой блок выполняет функцию детектора, определяющего качественный уровень усвоения соответствующего раздела учебной программы • Разработка блоков опирается на систему индикаторов (типологию задач), соответствующую обобщенным критериям уровней освоения способа действия
Реализация теоретической модели SAM • В рамках модели SAM разработаны тесты по двум предметам – математике и русскому языку – имеющие общую структуру • Тесты рассчитаны на выпускников начальной школы и могут выполняться учащимися 4-го и 5-го классов. • Тест включает основные разделы содержания, представленные в программах для начальной школы • Структурной единицей теста является блок из трех заданий (1‑го, 2‑го и 3‑го уровня), соответствующий одному разделу предметного содержания. Задачи предъявляются блоками. • Используются задания открытой формы с кратким ответом, закрытой с выбором одного ответа из 4-5 предложенных, задания на установление соответствия, требующие построений и другие. • Для оценивания заданий используется дихотомическая оценка: за правильный ответ ученик получает 1 балл, за неправильный ответ (или отсутствие ответа) – 0 баллов.
Проверка качества: апробационное тестирование • Цель – проверка функционирования заданий (анализ тестовых заданий) и всего теста в целом, исследование системообразующих свойств теста, оценивание его надежности и валидности
Характеристики заданий в классической теории тестирования • Трудность задания (коэффициент решаемости): доля испытуемых, выполнивших задание верно (получивших 1 балл за выполнение задания для дихотомических заданий определяется) • Дискриминативность (дифференцирующая способность задания): способность задания различать испытуемых с различным уровнем подготовки.
Связь между надежностью и валидностью Надежность– характеристика точности и устойчивости результатов оценки Валидность – характеристика пригодности оценочной информации для принятия правильных решений на ее основе
Анализ данных апробации(весна 2012 г.)(КТТ, Математика, бланковая форма, более5000учащихся) • все задания имеют удовлетворительные показатели • коэффициенты решаемости заданий находятся в промежутке от 0,16 до 0,98 • 4 задания 1-го уровня обладают низкой дискриминативностью (это объясняется их легкостью - эти задания выполняют более 90% испытуемых).
Иерархия заданий по уровню трудности (математика) Задания трех уровней, относящиеся к одному блоку, должны образовывать иерархию по трудности
Коэффициенты решаемости тестовых заданий в зависимости от их уровня (математика)
Совместное распределение коэффициентов решаемости и показателей дискриминативности (математика, вариант 1)
Анализ дистракторов заданий закрытой формы с выбором ответа
Анализ в современной теории тестирования IRT • тесты могут быть признаны существенно одномерными • тесты оптимальны по трудности и хорошо центрированы относительно контингента тестируемых • абсолютное большинство заданий демонстрируют хорошие психометрические показатели и хорошее согласие с используемой моделью измерения Таким образом, тесты SAM могут быть признаны качественнымиизмерительными инструментами математической и языковой компетенций учащихся начальной школы.
Карта переменных (математика, вариант 1)
Характеристические кривые двух заданий Задание очень трудное, 3-го уровня (выполнили 19% участников тестирования) Задание 2-го уровня, средней трудности
Выравнивание вариантов • Метод общих заданий • Процедура: отдельная калибровка с фиксацией общих параметров и отражением всех параметров на общей шкале
Обоснование валидности SAM: основные направления • Валидность по содержанию, • Валидность конструкта • Критериальнаявалидность (текущая и прогностическая)
Характеристика различных показателей валидности • показатель валидности по содержанию характеризует меру адекватности тестовых материалов проверяемой компетенции • показатель валидности конструкта устанавливает меру согласованности результатов тестирования с психологической моделью тестируемой способности • показатель критериальной валидности фиксирует меру согласованности результатов тестирования с известными объективными критериями
Валидность конструкта • В модели SAM основным конструктом, подлежащим верификации, является трехуровневая таксономия освоения учебного содержания, вписанная в возрастной контекст. • Этот конструкт связан как минимум с двумя гипотетическими утверждениями, требующими проверки: 1) Задания трех уровней, относящиеся к одному блоку и отвечающие теоретически заданным критериям трех уровней, должны обнаруживать соответствующую иерархию по трудности. 2) В начальной школе предметный материал в норме может и должен усваиваться на втором (рефлексивном) уровне, т.е. на уровне понимания. Освоение этого материала на третьем (функциональном) уровне может и должно происходить в рамках основной школы.
Проверка второй гипотезы • Исследование проводилось в 2011-2012 гг. • В 2011 г. тесты по математике и русскому языку были предложены учащимся 4-х возрастных групп – 4-х, 6-х, 8-х и 10-х классов (тестировались по две параллели в каждой школе). Через год, в 2012 г. те же тесты были предложены тем же учащимся, которые в тот момент были учащимися 5-х, 7-х, 9-х и 11-х классов. Тестирование проходило весной, в конце учебного года • Выборка включала около 100 человек в каждой параллели
Оценивание участников тестирования: ступени мастерства • Ниже первой ступени – не освоен даже первый: учащийся выполняет менее 50% заданий 1-го уровня • Первая ступень – освоен первый уровень: учащийся выполняет не менее 50% заданий 1-го уровня • Вторая ступень – освоен второй уровень: учащийся выполняет не менее 50% заданий 2-го уровня • Третья ступень – освоен третий уровень: учащийся выполняет не менее 50% заданий 3-го уровня
Распределение участников тестирования по ступеням достижений в зависимости от класса (математика)
Распределение участников тестирования по ступеням достижений в зависимости от класса (русский язык)
Исследование прогностической валидности SAM • Исследование проводилось на базе данных апробации тестов SAM в одном из регионов РФ весной 2011 г. • Общий объем выборки составил 941 человек из 12 школ. • Тестирование проходило в конце 4-го класса, т.е. по окончании начальной школы. • Были собраны оценки по математике этих же учащихся в 5-м классе (т.е. через год после проведения тестирования). Распределение участников тестирования по ступеням достижений (математика)
Распределение оценок учащихся в зависимости от ступени достижений (математика) Коэффициенты корреляции между тестовым баллом учащихся и их школьными оценками, а также между ступенью, к которой был отнесен учащийся, и его школьной оценкой соответственно равны 0,6 и 0,56. Распределение учащихся по ступеням достижений в зависимости от оценки (математика)
Оценивание участников тестирования • Нормативно-ориентированный подход позволяет сравнить результаты различных участников между собой, а также с ранее полученными результатами. С этой целью каждому участнику тестирования в результате математической обработки результатов присваивается интегральный тестовый балл. Тестовые баллы всех участников тестирования находятся на единой шкале, независимо от времени прохождения теста и конкретного набора выполненных заданий. • Критериально-ориентированный подход – обеспечивает возможность качественной оценки усвоения предметного содержания через указание ведущего типа ориентировки в решении задач. Для его реализации был разработан ступенчатый вариант шкалы достижений, основанный на интегральных баллах участников тестирования и пороговых значениях, делящих всех участников на группы, соответствующие различным качественным ступеням достижений .
Разработка методики оценивания участников тестирования • Выбор модели для оценивания участников тестирования • Выбор базовой выборки для создания единой шкалы представления результатов тестирования • Создание единой шкалы для представления результатов тестирования • Установление пороговых оценок (benchmarks) и интерпретация отдельных уровней достижений • Выравнивание результатов последующих тестирований (нанесение всех результатов на созданную ранее единую шкалу) • Представление результатов тестирования
Создание единой шкалы для представления результатов тестирования • Специальное исследование (объем выборки 939 учащихся) • Получение оценок мер испытуемых в логитах • Выбор подходящего линейного преобразования для перехода на 1000-балльную шкалу • Все результаты будущих тестирований будут преобразовываться на эту шкалу с помощью того же линейного преобразования
Шкала математической компетенции Ступень 3 Ожидается, что ученик А выполнит, по крайней мере, 50% заданий 3-го уровня Задания 3-го уровня УченикA 570 Ожидается, что ученик В выполнит, по крайней мере, 50% заданий 2-го уровня Ступень 2 Задания 2-го уровня Ученик B 500 Ожидается, что ученик С выполнит, по крайней мере, 50% заданий 1-го уровня Ступень1 УченикC Задания 1-го уровня 430 Ожидается, что ученик D не сможет выполнить даже 50% заданий 1-го уровня Ниже 1-ой ступени Ученик D
Интерпретация пороговых оценок Пороги: 430 (граница между 0 и 1ступенями) 500 (граница между 1и 2ступенями) 570 (граница между 1и 2ступенями)
Распределение участников апробации 2012г. по ступеням достижений (математика, около 5000 человек) • В настоящее время установлены следующие пороговые оценки для математики: переход со ступени 0 на ступень 1 – 430 баллов; со ступени 1 на ступень 2 – 500 баллов; со ступени 2 на ступень 3 – 570 баллов.
Различная степень достижения ступеней • Степень достижения ступени может быть различной: учащийся может только-только достигнуть ступени, «зацепиться» за нее, а может уже ее освоить, т.е. стоять на ней уверенно. • Ступень считается достигнутой, если, по крайней мере, 50% заданий данного уровня выполнены правильно. • Будем считать, что ступень не только достигнута, но и освоена, если правильно выполнены не менее 75% заданий данного уровня. • Такая интерпретация результатов тестирования позволит выделить учащихся, уверенно стоящих на ступени и готовых к переходу на следующую ступень.
Распределение участников тестирования по ступеням (математика)
Первичный анализ данных тестирования-был проведен на базе данных апробации тестов SAM в одном из регионов РФ весной 2012 г. - были протестированы практически все учащиеся 4-го класса начальной школы данного региона: общий объем выборки составил 4406 человек по математике и 4385 по русскому языку.
Распределение учащихся по ступеням достижений в зависимости от предмета Профиль образовательных результатов по математике для данной выборки учащихся (средние проценты решенных задач в зависимости от уровня).
Нормы выполнения теста • Среднестатистическая групповая норма – средний по школам показатель выполнения теста и его стандартное отклонение • Социокультурная норма – средний показатель группы школ-лидеров
Распределение учащихся разных школ по ступеням достижений (математика)
Некоторые результаты исследования : • Результат SAM статистически значимо зависит от типа населенного пункта: учащиеся городов и поселков выполняют тест лучше, чем учащиеся сельской местности • Результат SAM статистически значимо зависит от пола участника: девочки выполняют тест лучше, чем мальчики • Результат SAM статистически значимо зависит от типа учебного заведения: учащиеся гимназий выполняют тест лучше, чем учащиеся общеобразовательных школ
Сравнение достижений учащихся различных классов одной школы Русский язык (вверху) Математика (справа)
Исследование характеристик образовательной среды Выборка: Один регион РФ весна 2012 Учащиеся 4-го класса: Математика - 4406 Русский язык - 4385
Размер класса и образовательные результаты • Малые классы более однородны – больший процент учащихся на ступенях 1 и 2 • Большие классы имеют больший процент в крайних категориях
Педагогические подходы к преподаванию Traditional Correlation -,204** is significant at the 0.05 (2-tailed) Constructivist
Педагогические подходы и образовательные результаты PearsonCorrelation • Конструктивистский подход ассоциируется с лучшими образовательными результатами • Традиционный подход имет отрицательную связь или не имеет связи с результатами
Кластеризация классов Сравнение кластеров
Благодарю за внимание!Карданова Елена Юрьевна: e_kardanova@mail.ru