Распределение смеси - Mixture distribution

В вероятность и статистика, а распределение смеси это распределение вероятностей из случайная переменная который получается из набора других случайных величин следующим образом: сначала случайная величина выбирается случайно из набора в соответствии с заданными вероятностями выбора, а затем реализуется значение выбранной случайной величины. Базовые случайные величины могут быть случайными действительными числами или могут быть случайные векторы (каждый имеет одинаковый размер), и в этом случае распределение смеси является многомерное распределение.

В случаях, когда каждая из базовых случайных величин равна непрерывный, переменная результата также будет непрерывной, а ее функция плотности вероятности иногда называют плотность смеси. В кумулятивная функция распределенияфункция плотности вероятности если он существует) можно выразить как выпуклое сочетание (т.е. взвешенная сумма с неотрицательными весами, сумма которых равна 1) других функций распределения и функций плотности. Отдельные распределения, которые объединяются для формирования распределения смеси, называются компоненты смеси, а вероятности (или веса), связанные с каждым компонентом, называются веса смеси. Количество компонентов в распределении смеси часто ограничивается конечным числом, хотя в некоторых случаях компоненты могут быть счетно бесконечный. Более общие случаи (т.е. бесчисленный множество компонентных распределений), а также счетный случай рассматриваются под названием составные распределения.

Необходимо проводить различие между случайная переменная функция распределения или плотность которого является суммой набора компонентов (то есть распределения смеси) и случайной величины, значение которой является суммой значений двух или более основных случайных величин, и в этом случае распределение задается свертка оператор. Например, сумма двух совместно нормально распределенные случайные величины, каждая с разными средними значениями, по-прежнему будут иметь нормальное распределение. С другой стороны, плотность смеси, созданная как смесь двух нормальных распределений с разными средними значениями, будет иметь два пика при условии, что два средних значения достаточно далеко друг от друга, показывая, что это распределение радикально отличается от нормального распределения.

Распределения смеси возникают во многих контекстах в литературе и возникают естественным образом там, где статистическая совокупность содержит два или более субпопуляции. Они также иногда используются как средство представления ненормальных распределений. Анализ данных по статистические модели с участием смешанных распределений обсуждается под заголовком модели смеси, в то время как настоящая статья концентрируется на простых вероятностных и статистических свойствах смесевых распределений и на том, как они соотносятся со свойствами лежащих в основе распределений.

Конечные и счетные смеси

Плотность смеси трех нормальных распределений (μ = 5, 10, 15, σ = 2) с равными весами. Каждый компонент показан как взвешенная плотность (каждый интегрируется с точностью до 1/3).

Учитывая конечный набор функций плотности вероятности п1(Икс), …, пп(Икс) или соответствующие кумулятивные функции распределения п1(Икс), …, пп(Икс) и веса ш1, …, шп такой, что шя ≥ 0 и шя = 1, распределение смеси можно представить, записав либо плотность, либо ж, или функция распределения, F, в виде суммы (которая в обоих случаях представляет собой выпуклую комбинацию):

Этот тип смеси, являющейся конечной суммой, называется конечная смесь, а в приложениях безоговорочная ссылка на «плотность смеси» обычно означает конечную смесь. Случай счетно бесконечного набора компонентов формально покрывается, если .

Бесчисленные смеси

Где набор компонентных распределений бесчисленный, результат часто называют сложное распределение вероятностей. Построение таких распределений имеет формальное сходство с построением распределений смесей: либо бесконечные суммирования, либо интегралы заменяют конечные суммирования, используемые для конечных смесей.

Рассмотрим функцию плотности вероятности п(Икс;а) для переменной Икс, параметризованный а. То есть для каждого значения а в каком-то наборе А, п(Икс;а) - функция плотности вероятности относительно Икс. Учитывая функцию плотности вероятности ш (означающий, что ш неотрицательна и интегрируется до 1), функция

снова является функцией плотности вероятности для Икс. Аналогичный интеграл можно записать для интегральной функции распределения. Отметим, что формулы здесь сводятся к случаю конечной или бесконечной смеси, если плотность ш разрешено быть обобщенная функция представляющая «производную» кумулятивной функции распределения дискретное распределение.

Смеси в параметрическом семействе

Компоненты смеси часто не являются произвольными распределениями вероятностей, но вместо этого являются членами параметрическая семья (например, нормальные распределения) с разными значениями параметра или параметров. В таких случаях, предполагая, что она существует, плотность может быть записана в виде суммы как:

для одного параметра, или

для двух параметров и так далее.

Характеристики

Выпуклость

Генерал линейная комбинация функций плотности вероятности не обязательно является плотностью вероятности, так как она может быть отрицательной или может интегрироваться с чем-то отличным от 1. Однако выпуклое сочетание функций плотности вероятности сохраняет оба этих свойства (неотрицательность и интеграцию до 1), и, таким образом, плотности смеси сами являются функциями плотности вероятности.

Моменты

Позволять Икс1, ..., Иксп обозначают случайные величины из п компонентные распределения, и пусть Икс обозначают случайную величину из распределения смеси. Тогда для любой функции ЧАС(·) для которого существует, и предполагая, что плотности компонентов пя(Икс) существовать,

В jмомент около нуля (т.е. выбор ЧАС(Икс) = Иксj) представляет собой просто средневзвешенное значение jые моменты компонентов. Моменты о среднем ЧАС(Икс) = (х - μ)j включают биномиальное расширение:[1]

куда μя обозначает среднее значение я-й компонент.

В случае смеси одномерных распределений с весами шя, средства μя и отклонения σя2, общее среднее значение и дисперсия будут:

Эти соотношения подчеркивают потенциал распределений смеси для отображения нетривиальных моментов более высокого порядка, таких как перекос и эксцесс (толстые хвосты ) и мультимодальность, даже при отсутствии таких функций в самих компонентах. Маррон и Ванд (1992) дают иллюстративное описание гибкости этой структуры.[2]

Режимы

Вопрос о мультимодальность проста для некоторых случаев, например, для смесей экспоненциальные распределения: все такие смеси одномодальный.[3] Однако в случае смесей нормальные распределения, это сложный. Условия для числа мод в многомерной нормальной смеси исследуются Ray & Lindsay.[4] расширение более ранней работы по одномерному [5][6] и многомерные распределения (Carreira-Perpinan and Williams, 2003[7]).

Здесь проблема оценки режимов работы п смесь компонентов в D мерное пространство сводится к выявлению критических точек (локальных минимумов, максимумов и седловых точек) на многообразие называется поверхностью гребня, которая является изображением функции линии гребня

куда α принадлежит к п − 1 размерный блок симплекси ΣярD × D, μярD соответствуют ковариации и среднему значению яth компонент. Рэй и Линдси[4] рассмотрим случай, когда п − 1 < D показывая взаимно однозначное соответствие режимов смеси и режимов на функция высоты час(α) = q(Икс*(α))таким образом, можно идентифицировать режимы, решая относительно α и определение стоимости Икс*(α).

Используя графические инструменты, потенциальная мультимодальность п = {2, 3} смеси; в частности показано, что количество режимов может превышать п и что режимы могут не совпадать со средствами компонента. Для двух компонентов они разрабатывают графический инструмент для анализа, вместо этого решая вышеупомянутый дифференциал относительно ш1 и выразив решения в виде функции Π (α), α ∈ [0, 1] так что количество и расположение мод для данного значения ш1 соответствует количеству пересечений графика на прямой Π (α) = ш1. Это, в свою очередь, может быть связано с количеством колебаний графика и, следовательно, с решениями приводя к явному решению для двухкомпонентной гомоскедастический смесь, данная

куда dM(μ1, μ2, Σ) = (μ2μ1)ТΣ−1(μ2μ1) это Расстояние Махаланобиса.

Поскольку приведенное выше является квадратичным, в этом случае существует не более двух режимов независимо от размера или веса.

Примеры

Два нормальных распределения

Простые примеры могут быть даны смесью двух нормальных распределений. (Видеть Мультимодальное распределение # Смесь двух нормальных распределений Больше подробностей.)

Учитывая равную (50/50) смесь двух нормальных распределений с одинаковым стандартным отклонением и разными средними (гомоскедастический ) общее распределение будет низким эксцесс относительно единственного нормального распределения - средние значения субпопуляций ложатся на плечи общего распределения. Если достаточно разделены, а именно двойным (общим) стандартным отклонением, поэтому они образуют бимодальное распределение, иначе у него просто широкий пик.[8] Вариация общей популяции также будет больше, чем вариация двух субпопуляций (из-за распространения разными способами), и, таким образом, демонстрирует чрезмерная дисперсия относительно нормального распределения с фиксированной вариацией хотя он не будет чрезмерно диспергирован относительно нормального распределения с вариацией, равной вариации всего населения.

В качестве альтернативы, учитывая две субпопуляции с одним и тем же средним значением и разными стандартными отклонениями, общая популяция будет демонстрировать высокий эксцесс с более острым пиком и более тяжелыми хвостами (и, соответственно, более мелкими плечами), чем в одном распределении.

Нормальное распределение и распределение Коши

Следующий пример взят из Hampel,[9] кто кредитует Джон Тьюки.

Рассмотрим распределение смеси, определяемое формулой

F(Икс)   =   (1 − 10−10) (стандартный нормальный ) + l0−10 (стандартный Коши ).

Среднее значение i.i.d. наблюдения от F(Икс) ведет себя "нормально", за исключением непомерно больших выборок, хотя среднее значение F(Икс) даже не существует.

Приложения

Плотности смеси - это сложные плотности, которые можно выразить в терминах более простых плотностей (компонентов смеси), и они используются как потому, что они обеспечивают хорошую модель для определенных наборов данных (где разные подмножества данных демонстрируют разные характеристики и их лучше всего моделировать отдельно), так и потому что они могут быть более математически понятными, потому что отдельные компоненты смеси могут быть более легко изучены, чем общая плотность смеси.

Плотность смеси можно использовать для моделирования статистическая совокупность с субпопуляции, где компоненты смеси - это плотности в субпопуляциях, а веса - это доли каждой субпопуляции в общей популяции.

Плотность смеси также может использоваться для моделирования экспериментальная ошибка или загрязнение - предполагается, что большинство образцов измеряют желаемое явление,

Параметрическая статистика, предполагающая отсутствие ошибок, часто терпит неудачу при такой плотности смеси - например, статистика, предполагающая нормальность, часто терпит неудачу при наличии даже нескольких выбросы - и вместо этого используется надежная статистика.

В метаанализ отдельных исследований, изучать неоднородность приводит к тому, что распределение результатов является смешанным, и приводит к чрезмерная дисперсия результатов относительно прогнозируемой ошибки. Например, в статистический обзор, то погрешность (определяется размером выборки) предсказывает ошибка выборки и, следовательно, разброс результатов при повторных опросах. Наличие неоднородности исследования (исследования имеют разные систематическая ошибка выборки ) увеличивает дисперсию относительно погрешности.

Смотрите также

Смесь

Иерархические модели

Примечания

  1. ^ Frühwirth-Schnatter (2006, Ch.1.2.4)
  2. ^ Marron, J. S .; Палочка, М. П. (1992). «Точная средняя интегрированная квадратичная ошибка». Анналы статистики. 20 (2): 712–736. Дои:10.1214 / aos / 1176348653., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ Frühwirth-Schnatter (2006, глава 1)
  4. ^ а б Ray, R .; Линдси, Б. (2005), "Топография многомерных нормальных смесей", Анналы статистики, 33 (5): 2042–2065, arXiv:математика / 0602238, Дои:10.1214/009053605000000417
  5. ^ Робертсон К.А., Фрайер Дж. Г. (1969) Некоторые описательные свойства нормальных смесей. Skand Aktuarietidskr 137–146
  6. ^ Бехбудиан, Дж (1970). «О режимах смеси двух нормальных распределений». Технометрика. 12: 131–139. Дои:10.2307/1267357. JSTOR  1267357.
  7. ^ http://faculty2.ucmerced.edu/mcarreira-perpinan/papers/EDI-INF-RR-0159.pdf
  8. ^ Шиллинг, Марк Ф .; Уоткинс, Энн Э.; Уоткинс, Уильям (2002). «Рост человека бимодален?». Американский статистик. 56 (3): 223–229. Дои:10.1198/00031300265.
  9. ^ Хэмпел, Франк (1998), «Неужели статистика слишком сложна?», Канадский статистический журнал, 26: 497–513, Дои:10.2307/3315772, HDL:20.500.11850/145503

Рекомендации

  • Фрювирт-Шнаттер, Сильвия (2006), Конечная смесь и модели с марковским переключением, Спрингер, ISBN  978-1-4419-2194-9
  • Линдси, Брюс Г. (1995), Модели смесей: теория, геометрия и приложения, Серия региональных конференций NSF-CBMS по вероятности и статистике, 5, Хейворд, Калифорния, США: Институт математической статистики, ISBN  0-940600-32-3, JSTOR  4153184
  • Зайдель, Вильфрид (2010), «Модели смесей», в Lovric, M. (ed.), Международная энциклопедия статистической науки, Heidelberg: Springer, стр. 827–829, arXiv:0909.0389, Дои:10.1007/978-3-642-04898-2, ISBN  978-3-642-04898-2