Компьютеризированное адаптивное тестирование - Computerized adaptive testing

Компьютеризированное адаптивное тестирование (КОТ) является формой компьютерный тест адаптируется к уровню способностей испытуемого. По этой причине его также называли индивидуальное тестирование. Другими словами, это форма компьютерного тестирования, в котором следующий элемент или набор элементов, выбранных для проведения, зависит от правильности ответов тестируемого на самые последние выполненные задания.[1]

Как это устроено

CAT последовательно выбирает вопросы с целью максимальной точности экзамена на основе того, что известно об экзаменуемом из предыдущих вопросов.[2] С точки зрения испытуемого, сложность экзамена зависит от уровня его способностей. Например, если экзаменуемый хорошо справляется с заданием средней сложности, ему будет предложен более сложный вопрос. Или, если они работали плохо, им задавали более простой вопрос. По сравнению со статическим множественный выбор Тесты, которые прошли почти все, с фиксированным набором заданий, назначаемых всем экзаменуемым, компьютерно-адаптивные тесты требуют меньшего количества тестовых заданий для получения одинаково точных результатов.[2] (Конечно, в методологии CAT нет ничего, что требовало бы, чтобы пункты были с множественным выбором; но так же, как большинство экзаменов являются множественным выбором, большинство экзаменов CAT также используют этот формат.)

Базовый компьютерно-адаптивный метод тестирования - это итеративный алгоритм со следующими шагами:[3]

  1. В пуле доступных предметов ищется оптимальный предмет на основании текущей оценки способностей испытуемого.
  2. Выбранный вопрос предъявляется экзаменующемуся, который затем отвечает на него правильно или неправильно.
  3. Оценка способности обновляется на основе всех предыдущих ответов.
  4. Шаги 1–3 повторяются до тех пор, пока не будет выполнен критерий прекращения.

Об экзаменуемом ничего не известно до того, как приступить к выполнению первого задания, поэтому алгоритм обычно начинается с выбора в качестве первого задания элемента средней или средней-легкой сложности.

В результате адаптивного администрирования разные испытуемые проходят различные тесты.[4] Психометрическая технология, которая позволяет вычислять равные баллы по разным наборам заданий, является теория ответа элемента (IRT). IRT также является предпочтительной методологией для выбора оптимальных элементов, которые обычно выбираются на основе Информация а не трудности как таковые.[3]

В Соединенных Штатах Вступительный экзамен в аспирантуру в настоящее время проводятся в основном как компьютерно-адаптивный тест. Список активных программ CAT находится на Международная ассоциация компьютерного адаптивного тестирования, наряду со списком текущих исследовательских программ CAT и почти всеобъемлющей библиографией всех опубликованных исследований CAT.

Связанная методология называется многоступенчатое тестирование (MST) или В РОЛЯХ используется в Единый экзамен сертифицированного государственного бухгалтера. MST устраняет или уменьшает некоторые недостатки CAT, как описано ниже. Увидеть Специальный выпуск 2006 г. журнала Applied Measurement in Education[постоянная мертвая ссылка ] для получения дополнительной информации о MST.

Преимущества

Адаптивные тесты могут дать одинаково точные результаты для большинства тестируемых.[3] Напротив, стандартные фиксированные тесты почти всегда обеспечивают лучшую точность для испытуемых со средними способностями и все более низкую точность для испытуемых с более экстремальными результатами тестов.

Адаптивный тест обычно можно сократить на 50%, сохранив при этом более высокий уровень точность чем фиксированная версия.[2] Это означает экономию времени тестируемого. Испытуемые не тратят свое время на выполнение слишком сложных или тривиально легких заданий. Кроме того, испытательная организация получает выгоду от экономии времени; существенно снижается стоимость сидения экзаменуемого. Однако, поскольку разработка CAT требует гораздо больших затрат, чем стандартный тест с фиксированной формой, для того, чтобы программа тестирования CAT была финансово плодотворной, необходимо большое количество людей.

Большие целевые группы обычно могут быть представлены в научных и исследовательских областях. CAT-тестирование в этих аспектах может использоваться для выявления раннего начала инвалидности или болезней. Рост тестирования CAT в этих областях значительно увеличился за последние 10 лет. Когда-то не принятые в медицинских учреждениях и лабораториях, тестирование CAT теперь поощряется в рамках диагностики.

Как и любой компьютерный тест, адаптивные тесты могут показать результаты сразу после тестирования.

Адаптивное тестирование в зависимости от выбора позиции алгоритм, может снизить подверженность некоторым заданиям, потому что экзаменуемые обычно получают разные наборы заданий, а не все население получает один набор. Тем не менее, это может усилить воздействие других (а именно, средние или средние / легкие задания, представленные большинству испытуемых в начале теста).[3]

Недостатки

Первая проблема, возникающая в CAT, - это калибровка пула элементов. Чтобы смоделировать характеристики элементов (например, чтобы выбрать оптимальный элемент), все элементы теста должны быть предварительно применены к большой выборке, а затем проанализированы. Для этого новые задания должны быть смешаны с рабочими заданиями экзамена (ответы записываются, но не влияют на баллы тестируемых), что называется «пилотное тестирование», «предварительное тестирование» или «рассев». .[3] Это создает проблемы логистики, этики и безопасности. Например, невозможно провести оперативный адаптивный тест с совершенно новыми, невидимыми элементами;[5] все предметы должны быть предварительно протестированы на достаточно большой выборке, чтобы получить стабильную статистику предметов. Может потребоваться, чтобы эта выборка состояла из 1000 испытуемых.[5] Каждая программа должна решить, какой процент теста может разумно состоять из элементов пилотного теста без оценок.

Хотя адаптивные тесты имеют контроль экспозиции алгоритмы предотвращения чрезмерного использования нескольких элементов,[3] экспозиция, обусловленная способностями, часто не контролируется и может легко приблизиться к 1. То есть некоторые элементы часто становятся очень распространенными в тестах для людей с такими же способностями. Это серьезная проблема безопасности, поскольку группы, совместно использующие элементы, могут иметь аналогичный уровень функциональных возможностей. Фактически, полностью рандомизированный экзамен является наиболее безопасным (но и наименее эффективным).

Обзор прошлых материалов обычно запрещен. Адаптивные тесты, как правило, позволяют выполнять более простые задания после того, как человек отвечает неправильно. Предположительно, проницательный тестируемый мог бы использовать такие подсказки, чтобы обнаружить неправильные ответы и исправить их. Или же можно научить тестируемых сознательно выбирать неправильные ответы, что приведет к тому, что тест станет все проще. После обмана адаптивного теста для создания максимально простого экзамена они могли затем просмотреть все пункты и правильно ответить на них - возможно, получив очень высокий балл. Тестируемые часто жалуются на невозможность рецензирования.[6]

Из-за сложности разработка CAT имеет ряд предпосылок.[7] Должны присутствовать большие размеры выборки (обычно сотни испытуемых), необходимые для калибровки IRT. Элементы должны оцениваться в реальном времени, если новый элемент должен быть выбран мгновенно. Для предоставления валидной документации необходимы психометры, имеющие опыт калибровки IRT и исследований с использованием компьютерной симуляции. Наконец, должна быть доступна программная система, способная к настоящему CAT на основе IRT.

В CAT с ограничением по времени испытуемый не может точно спланировать время, которое он может потратить на каждый элемент теста, и определить, успевают ли они пройти заданный по времени раздел теста. Таким образом, тестируемые могут быть оштрафованы за то, что они потратили слишком много времени на сложный вопрос, который задается в начале раздела, а затем не смогли ответить на достаточное количество вопросов, чтобы точно оценить их уровень знаний в областях, которые остаются непроверенными по истечении времени.[8] В то время как CATs без привязки к сроку являются отличным инструментом для формирующих оценок, которые служат руководством для последующего обучения, CATs с определенным временем непригодны для итоговых оценок с высокими ставками, используемых для измерения способности к работе и образовательным программам.

Составные части

В создании CAT есть пять технических компонентов (нижеследующее адаптировано из Weiss & Kingsbury, 1984[2] ). Этот список не включает практические вопросы, такие как предварительное тестирование элемента или выпуск в реальном времени.

  1. Пул калиброванных предметов
  2. Отправная точка или начальный уровень
  3. Выбор предмета алгоритм
  4. Процедура подсчета очков
  5. Критерий прекращения

Пул калиброванных предметов

CAT должен быть доступен для выбора.[2] Такие предметы могут быть созданы традиционным способом (т.е. вручную) или с помощью Автоматическая генерация предметов. Пул должен быть откалиброван с помощью психометрической модели, которая используется в качестве основы для остальных четырех компонентов. Обычно теория ответа элемента используется как психометрическая модель.[2] Одна из причин, по которой теория ответов на вопросы является популярной, заключается в том, что она помещает людей и предметы в одну и ту же метрику (обозначается греческой буквой тета), что помогает при проблемах с выбором предметов (см. Ниже).

Отправная точка

В CAT элементы выбираются на основе результатов экзаменуемого до определенного момента в тесте. Тем не менее, очевидно, что CAT не в состоянии сделать какую-либо конкретную оценку способностей экзаменуемого, если не было заданий. Поэтому необходима другая начальная оценка способностей испытуемого. Если известна некоторая предыдущая информация об испытуемом, ее можно использовать,[2] но часто CAT просто предполагает, что испытуемый имеет средние способности, поэтому первый пункт часто бывает средней сложности.

Алгоритм выбора предмета

Как упоминалось ранее, теория ответа элемента помещает испытуемых и их задания в одну и ту же метрику. Следовательно, если CAT имеет оценку способностей экзаменуемого, он может выбрать элемент, наиболее подходящий для этой оценки.[5] Технически это делается путем выбора элемента с наибольшим Информация в таком случае.[2] Информация является функцией параметра распознавания элемента, а также параметра условной дисперсии и псевдодогадания (если используется).

Процедура подсчета очков

После того, как элемент введен, CAT обновляет оценку уровня способностей испытуемого. Если испытуемый правильно ответил на вопрос, CAT, вероятно, оценит его способности несколько выше, и наоборот. Это делается с помощью функции ответа элемента из теория ответа элемента получить функция правдоподобия способностей испытуемого. Для этого называются два метода оценка максимального правдоподобия и Байесовская оценка. Последнее предполагает априори Распределение способностей испытуемых и имеет две обычно используемые оценки: ожидание апостериори и максимум апостериори. Максимальная вероятность эквивалентна апостериорной оценке байесовского максимума, если предполагается равномерная (f (x) = 1) апостериорная оценка.[5] Максимальное правдоподобие асимптотически несмещено, но не может обеспечить тета-оценку для несмешанного (полностью правильного или неправильного) вектора ответа, и в этом случае может потребоваться временно использовать байесовский метод.[2]

Критерий прекращения

Этот кот алгоритм предназначен для многократного применения заданий и обновления оценки способностей испытуемого. Это будет продолжаться до тех пор, пока пул элементов не будет исчерпан, если в CAT не будет включен критерий завершения. Часто тест прекращается, когда стандартная ошибка измерения экзаменуемого падает ниже определенного значения, указанного пользователем, отсюда вышеупомянутое утверждение о том, что преимущество состоит в том, что оценки экзаменуемого будут одинаково точными или «одинаково точными».[2] Существуют и другие критерии завершения для разных целей теста, например, если тест предназначен только для определения того, должен ли экзаменующийся «сдать» или «не сдать» тест, а не для получения точной оценки своих способностей.[2][9]

Другие вопросы

Прошел-не прошел

Во многих ситуациях цель теста - разделить испытуемых на двух или более взаимоисключающий и исчерпывающий категории. Это включает в себя общий «зачетный тест», где две классификации - «прошел» и «не прошел», но также включает ситуации, когда существует три или более классификации, такие как «Недостаточный», «Базовый» и «Продвинутый» уровни знаний. или компетентность. Тип «адаптивного на уровне элементов» CAT, описанный в этой статье, наиболее подходит для тестов, которые не являются «пройден / не пройден», или для тестов типа «прошел / не прошел», где очень важно обеспечить хорошую обратную связь. Некоторые модификации необходимы для CAT, также известного как компьютеризированный классификационный тест (CCT).[9] Для экзаменуемых с истинными оценками, очень близкими к проходному баллу, компьютеризированные классификационные тесты приведут к длинным тестам, в то время как те, у кого истинные баллы намного выше или ниже проходного балла, будут иметь самые короткие экзамены.

Например, необходимо применить новый критерий завершения и алгоритм оценки, который классифицирует экзаменуемого по категории, а не дает точечную оценку способностей. Для этого доступны две основные методологии. Более заметным из двух является последовательный тест отношения вероятностей (SPRT).[10][11] Это формулирует проблему классификации испытуемых как проверка гипотез что способности экзаменуемого равны либо некоторой указанной точке выше оценка или другой указанный пункт ниже оценки. Обратите внимание, что это формулировка точечной гипотезы, а не составная формулировка гипотезы.[12] это более концептуально подходит. Сложная формулировка гипотезы будет заключаться в том, что способности экзаменуемого находятся в области выше оценки или в области ниже оценки.

А доверительный интервал Также используется подход, когда после выполнения каждого задания алгоритм определяет вероятность того, что истинный балл экзаменуемого будет выше или ниже проходного балла.[13][14] Например, алгоритм может продолжаться до 95%. доверительный интервал для истинного счета больше не содержит проходного балла. На этом этапе никаких дополнительных заданий не требуется, потому что решение «сдан-не прошел» уже имеет точность 95%, если предполагается, что психометрические модели, лежащие в основе адаптивного тестирования, подходят испытуемому и тесту. Первоначально этот подход назывался «адаптивным тестированием мастерства».[13] но его можно применить к неадаптивному выбору заданий и ситуациям классификации двух или более оценок (типичный тест на зачетность имеет одну оценку).[14]

На практике алгоритм обычно программируется так, чтобы иметь минимальную и максимальную длину теста (или минимальное и максимальное время администрирования). В противном случае для экзаменуемого со способностями, очень близкими к оценкам, было бы возможно управлять каждым элементом в банке без принятия решения алгоритмом.

Используемый алгоритм выбора позиции зависит от критерия завершения. Максимизация информации по результатам сокращения более подходит для SPRT, поскольку он максимизирует разницу в вероятностях, используемых в отношение правдоподобия.[15] Максимизация информации при оценке возможностей более подходит для подхода с доверительным интервалом, поскольку он минимизирует условную стандартную ошибку измерения, которая уменьшает ширину доверительного интервала, необходимого для выполнения классификации.[14]

Практические ограничения адаптивности

ETS исследователь Марта Стокинг пошутила, что большинство адаптивных тестов на самом деле едва адаптивные тесты (BAT), потому что на практике на выбор элемента накладывается множество ограничений. Например, экзамены CAT обычно должны соответствовать требованиям к содержанию;[3] устный экзамен, возможно, должен состоять из равного количества аналогий, типов заданий с заполнением пробелов и синонимов. CAT обычно имеют некоторую форму ограничений на доступ к предметам,[3] чтобы не допустить чрезмерного экспонирования наиболее информативных элементов. Кроме того, в некоторых тестах делается попытка сбалансировать поверхностные характеристики предметов, таких как Пол людей в предметах или этнической принадлежности, подразумеваемой их именами. Таким образом, экзамены CAT часто ограничены тем, какие элементы он может выбирать, а для некоторых экзаменов ограничения могут быть существенными и требуют сложных стратегий поиска (например, линейное программирование ), чтобы найти подходящие предметы.

Простым методом управления экспонированием предметов является "случайный" или стратный метод. Вместо того, чтобы выбирать наиболее информативный элемент в каждой точке теста, алгоритм случайным образом выбирает следующий элемент из следующих пяти или десяти наиболее информативных элементов. Это можно использовать на протяжении всего теста или только в начале.[3] Другой метод - это метод Симпсона-Хеттера,[16] в котором случайное число берется из U (0,1) и сравнивается с kя параметр, определяемый для каждого элемента тестовым пользователем. Если случайное число больше, чем kя, рассматривается следующий по информативности пункт.[3]

Вим ван дер Линден и его коллеги[17] выдвинули альтернативный подход, названный теневое тестирование что предполагает создание всего теневые тесты как часть выбора предметов. Выбор элементов из теневых тестов помогает адаптивным тестам соответствовать критериям выбора, фокусируясь на глобально оптимальных вариантах (в отличие от вариантов, которые являются оптимальными). для данного элемента).

Многомерный

При заданном наборе элементов многомерный компьютерный адаптивный тест (MCAT) выбирает эти элементы из банка в соответствии с предполагаемыми способностями учащегося, что приводит к индивидуализированному тесту. MCAT стремятся максимизировать точность теста, основанную на нескольких способностях одновременного экзамена (в отличие от компьютерного адаптивного теста - CAT - который оценивает одну способность) с использованием последовательности заданий, на которые ранее были даны ответы (Piton-Gonçalves and Aluisio, 2012).

Смотрите также

Рекомендации

  1. ^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA В архиве 2017-07-22 в Wayback Machine
  2. ^ а б c d е ж грамм час я j k Weiss, D. J .; Кингсбери, Г. Г. (1984). «Применение компьютерного адаптивного тестирования к учебным задачам». Журнал образовательных измерений. 21 (4): 361–375. Дои:10.1111 / j.1745-3984.1984.tb01040.x.
  3. ^ а б c d е ж грамм час я j Тиссен, Д., Мислеви, Р.Дж. (2000). Алгоритмы тестирования. В Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
  4. ^ Грин, Б.Ф. (2000). Устройство и работа системы. В Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
  5. ^ а б c d Wainer, H .; Мислевы, Р.Дж. (2000). Вайнер, Х. (ред.). Теория отклика элемента, калибровка и оценка. Компьютеризированное адаптивное тестирование: учебник. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
  6. ^ Лоуренс М. Руднер. «Интерактивное онлайн-руководство по компьютерному адаптивному тестированию». EdRes.org/scripts/cat.
  7. ^ «Требования компьютеризированного адаптивного тестирования» (PDF). FastTEST Web. Архивировано из оригинал (PDF) 25 апреля 2012 г.
  8. ^ «Совет GMAT: адаптация к компьютерному тесту». Bloomberg. 3 апреля 2013 г.
  9. ^ а б Lin, C.-J. И Спрей, J.A. (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью теста последовательного отношения вероятностей. (Отчет об исследовании 2000-8). Айова-Сити, штат Айова: ACT, Inc.
  10. ^ Вальд, А. (1947). Последовательный анализ. Нью-Йорк: Вили.
  11. ^ Reckase, M. D. (1983). Процедура принятия решения с использованием специализированного тестирования. В Д. Дж. Вайсс (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
  12. ^ Вайцман, Р. А. (1982). «Последовательное тестирование на выбор». Прикладное психологическое измерение. 6 (3): 337–351. CiteSeerX  10.1.1.1030.6828. Дои:10.1177/014662168200600310.
  13. ^ а б Кингсбери, Г.Г., и Вайс, Д.Дж. (1983). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования. В Д. Дж. Вайсс (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
  14. ^ а б c Eggen, T. J.H.M; Straetmans, Г. Дж. Дж. М. (2000). «Компьютеризированное адаптивное тестирование для классификации испытуемых по трем категориям». Образовательные и психологические измерения. 60 (5): 713–734. Дои:10.1177/00131640021970862.
  15. ^ Спрей, Дж. А. и Реказ, М. Д. (1994). Выбор тестовых заданий для принятия решений с помощью компьютеризированного адаптивного теста. Документ, представленный на Ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Лос-Анджелес, 5–7 апреля 1994 г.).
  16. ^ Симпсон, Б.Дж., и Хеттер, Р.Д. (1985). Контроль уровня экспонирования предметов в компьютеризированном адаптивном тестировании. Доклад представлен на ежегодной конференции Ассоциации военных испытаний в Сан-Диего.
  17. ^ van der Linden, W. J .; Велдкамп, Б. П. (2004). «Ограничение экспонирования предметов в компьютерном адаптивном тестировании с теневыми тестами». Журнал образовательной и поведенческой статистики. 29 (3): 273–291. Дои:10.3102/10769986029003273.

Дополнительные источники

дальнейшее чтение

внешняя ссылка