Мультиномиальное распределение - Multinomial distribution

Полиномиальный
Параметры количество испытаний (целое число )
вероятности событий ()
Поддерживать
PMF
Иметь в виду
Дисперсия
Энтропия
MGF
CF где
PGF

В теория вероятности, то полиномиальное распределение является обобщением биномиальное распределение. Например, он моделирует вероятность подсчета для каждой стороны k-сторонний штамп п раз. За п независимый испытания, каждое из которых приводит к успеху ровно одного из k категории, где каждая категория имеет заданную фиксированную вероятность успеха, полиномиальное распределение дает вероятность любой конкретной комбинации количества успехов для различных категорий.

Когда k равно 2 и п равно 1, полиномиальное распределение - это Распределение Бернулли. Когда k равно 2 и п больше 1, это биномиальное распределение. Когда k больше 2 и п равно 1, это категориальное распределение.

В Распределение Бернулли моделирует результат единого Бернулли суд. Другими словами, он моделирует, переворачивает ли (возможно, пристрастный ) монета один раз приведет либо к успеху (получение головы), либо к провалу (получение хвоста). В биномиальное распределение обобщает это на количество голов от выполнения п независимые броски (испытания Бернулли) одной и той же монеты. Полиномиальное распределение моделирует результат п эксперименты, где результат каждого испытания имеет категориальное распределение, например, прокатка k-сторонний штамп п раз.

Позволять k - фиксированное конечное число. Математически мы имеем k возможные взаимоисключающие исходы с соответствующими вероятностями п1, ..., пk, и п независимые судебные процессы. Поскольку k результаты являются взаимоисключающими, и одно должно произойти, мы имеем пя ≥ 0 для я = 1, ..., k и . Тогда если случайные величины Икся указать количество раз номер результата я наблюдается над п испытания, вектор Икс = (Икс1, ..., Иксk) следует полиномиальному распределению с параметрами п и п, где п = (п1, ..., пk). Хотя испытания независимы, их результаты Икс являются зависимыми, потому что их необходимо суммировать до n.

В некоторых областях, таких как обработка естественного языка, категориальное и полиномиальное распределения являются синонимами, и обычно говорят о полиномиальном распределении, когда категориальное распределение на самом деле имеется в виду. Это связано с тем, что иногда удобно выразить результат категориального распределения как вектор «1 из K» (вектор с одним элементом, содержащим 1, а все остальные элементы содержат 0), а не как целое число. В диапазоне ; в этой форме категориальное распределение эквивалентно полиномиальному распределению по одному испытанию.

Технические характеристики

Вероятностная функция масс

Предположим, кто-то проводит эксперимент по извлечению п шары из k разные цвета из мешка, заменяя извлеченные шары после каждого розыгрыша. Шары одного цвета эквивалентны. Обозначим переменную, которая представляет собой количество извлеченных цветных шаров. я (я = 1, ..., k) так как Икся, и обозначим как пя вероятность того, что данное извлечение будет цветным я. В функция массы вероятности этого полиномиального распределения:

для неотрицательных целых чисел Икс1, ..., Иксk.

Функция массы вероятности может быть выражена с помощью гамма-функция в качестве:

Эта форма показывает свое сходство с Распределение Дирихле, что является его сопряженный предшествующий.

Визуализация

Как срезы обобщенного треугольника Паскаля

Так же, как можно интерпретировать биномиальное распределение как (нормализованные) одномерные (1D) срезы Треугольник Паскаля, так же можно интерпретировать полиномиальное распределение как двумерные (треугольные) срезы Пирамида паскаля, или 3D / 4D / + (пирамидальные) срезы многомерных аналогов треугольника Паскаля. Это показывает интерпретацию ассортимент распределения: дискретизированные равноматериальные «пирамиды» в произвольной размерности, т.е. а симплекс с сеткой.[нужна цитата ]

В качестве полиномиальных коэффициентов

Точно так же, как можно интерпретировать биномиальное распределение как полиномиальные коэффициенты в развернутом виде можно интерпретировать полиномиальное распределение как коэффициенты при расширении. (Обратите внимание, что, как и в случае биномиального распределения, коэффициенты должны в сумме равняться 1.) Это происхождение названия "полиномиальный распределение".

Характеристики

В ожидается количество раз результат я наблюдалось за п испытания

В ковариационная матрица составляет. Каждая диагональная запись - это отклонение биномиально распределенной случайной величины, и поэтому

Недиагональные записи - это ковариации:

за я, j отчетливый.

Все ковариации отрицательны, поскольку для фиксированного п, увеличение одного компонента полиномиального вектора требует уменьшения другого компонента.

Когда эти выражения объединяются в матрицу с я, j элемент в результате k × k положительно-полуопределенный ковариационная матрица ранга k - 1. В частном случае, когда k = п и где пя все равны, ковариационная матрица центрирующая матрица.

Записи соответствующих корреляционная матрица находятся

Обратите внимание, что размер выборки выпадает из этого выражения.

Каждый из k компоненты по отдельности имеет биномиальное распределение с параметрами п и пя, для соответствующего значения нижнего индекса я.

В поддержка полиномиального распределения - это множество

Количество его элементов

Матричные обозначения

В матричных обозначениях

и

с пТ = вектор-строка, транспонированная вектор-столбец п.

пример

Предположим, что на трехсторонних выборах в большой стране кандидат A получил 20% голосов, кандидат B получил 30% голосов, а кандидат C получил 50% голосов. Если шесть избирателей выбраны случайным образом, какова вероятность того, что в выборке будет ровно один сторонник кандидата A, два сторонника кандидата B и три сторонника кандидата C?

Примечание. Поскольку мы предполагаем, что число голосующих велико, разумно и допустимо считать вероятности неизменными после того, как избиратель будет выбран для выборки. С технической точки зрения это выборка без замены, поэтому правильным распределением является многомерное гипергеометрическое распределение, но распределения сходятся по мере роста населения.

Выборка из полиномиального распределения

Сначала измените порядок параметров таким образом, чтобы они были отсортированы в порядке убывания (это только для ускорения вычислений и не является строго необходимым). Теперь для каждого испытания нарисуйте вспомогательную переменную Икс из равномерного (0, 1) распределения. Результирующий результат - компонент

{Иксj = 1, Иксk = 0 для k ≠ j } - одно наблюдение из полиномиального распределения с и п = 1. Сумма независимых повторений этого эксперимента представляет собой наблюдение из полиномиального распределения с п равно количеству таких повторений.

Для моделирования из полиномиального распределения

Для моделирования из полиномиального распределения могут использоваться различные методы. Очень простое решение - использовать однородный генератор псевдослучайных чисел на (0,1). Сначала разделим интервал (0,1) наk подынтервалы, равные по длине вероятностям k категории. Затем мы генерируем п независимых псевдослучайных чисел, чтобы определить, в каком из k интервалы, которые они встречаются, и подсчитывают количество появлений в каждом интервале.

пример

Если у нас есть:

Категории123456
Вероятности0.150.200.300.160.120.07
Верхние пределы подынтервалов0.150.350.650.810.931.00

Затем с помощью такого программного обеспечения, как Excel, мы можем использовать следующий рецепт:

Ячейки:АйБиCi...Gi
Формулы:Рэнд ()= Если ($ Ai <0,15; 1; 0)= Если (И ($ Ai> = 0,15; $ Ai <0,35); 1; 0)...= Если ($ Ai> = 0,93; 1; 0)

После этого мы будем использовать такие функции, как SumIf, для накопления наблюдаемых результатов по категориям и для вычисления оценочной ковариационной матрицы для каждой моделируемой выборки.

Другой способ - использовать дискретный генератор случайных чисел. В этом случае категории должны быть помечены или перемаркированы числовыми значениями.

В обоих случаях результатом является полиномиальное распределение с k категории. Это эквивалентно с непрерывным случайным распределением для моделирования k независимые стандартизованные нормальные распределения или мультинормальное распределение N (0, I), имеющее k компоненты одинаково распределены и статистически независимы.

Поскольку количество всех категорий должно быть суммировано с количеством испытаний, количество категорий всегда имеет отрицательную корреляцию.[1]

Тесты эквивалентности для полиномиальных распределений

Цель проверки эквивалентности - установить соответствие между теоретическим полиномиальным распределением и наблюдаемой частотой счета. Теоретическое распределение может быть полностью заданным полиномиальным распределением или параметрическим семейством полиномиальных распределений.

Позволять обозначим теоретическое полиномиальное распределение и пусть быть истинным основным распределением. Распределения и считаются эквивалентными, если на расстоянии и параметр допуска . Задача проверки эквивалентности против . Истинное основное распределение неизвестно. Вместо этого частота счета наблюдаются, где размер выборки. Тест эквивалентности использует отказаться . Если можно отвергнуть, то эквивалентность между и отображается на заданном уровне значимости. Тест эквивалентности евклидова расстояния можно найти в учебнике Веллека (2010).[2] Тест эквивалентности для общей дистанции вариации разработан в Ostrovski (2017).[3] Точный критерий эквивалентности для конкретного кумулятивного расстояния предложен Фреем (2009).[4]

Расстояние между истинным базовым распределением и семейство полиномиальных распределений определяется . Тогда задача проверки эквивалентности дается формулой и . Расстояние обычно вычисляется с использованием численной оптимизации. Тесты для этого случая недавно были разработаны Островским (2018).[5]

Связанные дистрибутивы

Рекомендации

Цитаты

  1. ^ "1.7 - Мультиномиальное распределение | STAT 504". onlinecourses.science.psu.edu. Получено 2016-09-11.
  2. ^ Веллек, Стефан (2010). Проверка статистических гипотез эквивалентности и неполноценности. Чепмен и Холл / CRC. ISBN  978-1439808184.
  3. ^ Островский, Владимир (май 2017). «Проверка эквивалентности полиномиальных распределений». Письма о статистике и вероятности. 124: 77–82. Дои:10.1016 / j.spl.2017.01.004. S2CID  126293429.Официальная веб-ссылка (требуется подписка). Альтернативная бесплатная веб-ссылка.
  4. ^ Фрей, Джесси (март 2009 г.). «Точный полиномиальный тест на эквивалентность». Канадский статистический журнал. 37: 47–59. Дои:10.1002 / cjs.10000.Официальная веб-ссылка (требуется подписка).
  5. ^ Островский, Владимир (март 2018). «Проверка эквивалентности семейств полиномиальных распределений с применением модели независимости». Письма о статистике и вероятности. 139: 61–66. Дои:10.1016 / j.spl.2018.03.014. S2CID  126261081.Официальная веб-ссылка (требуется подписка). Альтернативная бесплатная веб-ссылка.

Источники