Качественная вариация - Qualitative variation

An индекс качественной вариации (IQV) является мерой статистическая дисперсия в номинальные распределения. Их существует множество, но они относительно мало изучены в статистической литературе. Самый простой - это коэффициент вариации, а более сложные индексы включают информационная энтропия.

Характеристики

Для анализа номинальных данных используются несколько типов индексов. Некоторые из них являются стандартной статистикой, которые используются в других местах - классифицировать, стандартное отклонение, отклонение, среднее отклонение, коэффициент вариации, среднее абсолютное отклонение, межквартильный размах и квартирное отклонение.

В дополнение к этим некоторые статистические данные были разработаны с учетом номинальных данных. Ряд суммировал и разработал Уилкокс (Уилкокс 1967 ), (Уилкокс 1973 ), который требует выполнения следующих свойств стандартизации:

Вариация варьируется от 0 до 1.
Вариант равен 0 тогда и только тогда, когда все случаи относятся к одной категории.
Вариант равен 1 тогда и только тогда, когда случаи делятся поровну по всей категории.^[1]

В частности, значение этих стандартизованных показателей не зависит от количества категорий или количества выборок.

Для любого индекса, чем ближе к равномерному распределению, чем больше дисперсия, и чем больше разница в частотах по категориям, тем меньше дисперсия.

Индексы качественной изменчивости тогда аналогичны информационная энтропия, который сводится к минимуму, когда все наблюдения относятся к одной категории, и максимизируется при равномерном распределении. Действительно, информационная энтропия может использоваться как показатель качественной вариации.

Одна характеристика конкретного индекса качественной вариации (IQV) - это отношение наблюдаемых различий к максимальным различиям.

Индексы Уилкокса

Уилкокс приводит ряд формул для различных показателей QV (Уилкокс 1973 ), первый, который он обозначает DM для «отклонения от режима», является стандартизированной формой коэффициент вариации, и аналогичен отклонение как отклонение от среднего.

ModVR

Формула для изменения режима (ModVR) выводится следующим образом:

{ Displaystyle M = сумма _ {я = 1} ^ {K} (f_ {m} -f_ {i})}

куда ж_м модальная частота, K количество категорий и ж_я это частота я^th группа.

Это можно упростить до

{ displaystyle M = Kf_ {m} -N}

куда N - общий размер выборки.

Индекс Фримена (или коэффициент вариации) равен^[2]

{ displaystyle v = 1 - { frac {f_ {m}} {N}}}

Это связано с M следующее:

{ displaystyle { frac {({ frac {f_ {m}} {N}}) - { frac {1} {K}}} {{ frac {N} {K}} { frac {( K-1)} {N}}}} = { frac {M} {N (K-1)}}}

ModVR определяется как

{ displaystyle operatorname {ModVR} = 1 - { frac {Kf_ {m} -N} {N (K-1)}} = { frac {K (N-f_ {m})} {N (K -1)}} = { frac {Kv} {K-1}}}

куда v индекс Фримена.

Низкие значения ModVR соответствуют небольшому количеству вариации, а высокие значения - большему количеству вариации.

Когда K большой, ModVR примерно равен индексу Фрименаv.

RanVR

Это основано на диапазоне вокруг режима. Он определяется как

{ displaystyle operatorname {RanVR} = 1 - { frac {f_ {m} -f_ {l}} {f_ {m}}} = { frac {f_ {l}} {f_ {m}}}}

куда ж_м - модальная частота и ж_л самая низкая частота.

AvDev

Это аналог среднего отклонения. Он определяется как среднее арифметическое абсолютных отличий каждого значения от среднего.

{ displaystyle operatorname {AvDev} = 1 - { frac {1} {2N}} { frac {K} {K-1}} sum _ {i = 1} ^ {K} left | f_ { i} - { frac {N} {K}} right |}

MNDif

Это аналог средней разности - среднее значение разностей всех возможных пар переменных значений, взятых независимо от знака. Средняя разница отличается от среднего и стандартного отклонения, потому что она зависит от разброса различных значений между собой, а не от отклонений от некоторого центрального значения.^[3]

{ displaystyle operatorname {MNDif} = 1 - { frac {1} {N (K-1)}} sum _ {i = 1} ^ {K-1} sum _ {j = i + 1} ^ {K} | f_ {i} -f_ {j} |}

куда ж_я и ж_j являются я^th и j^th частоты соответственно.

MNDif - это Коэффициент Джини применительно к качественным данным.

VarNC

Это аналог дисперсии.

{ displaystyle operatorname {VarNC} = 1 - { frac {1} {N ^ {2}}} { frac {K} {K-1}} sum left (f_ {i} - { frac {N} {K}} right) ^ {2}}

Это тот же индекс, что и индекс качественной изменчивости Мюллера и Шусслера.^[4] и Гиббса M2 индекс.

Распространяется как чи квадрат переменная с K – 1 степени свободы.^[5]

StDev

Уилсон предложил две версии этой статистики.

Первый основан на AvDev.

{ displaystyle operatorname {StDev} _ {1} = 1 - { sqrt { frac { sum _ {i = 1} ^ {K} left (f_ {i} - { frac {N} {K }} right) ^ {2}} { left (N - { frac {N} {K}} right) ^ {2} + (K-1) left ({ frac {N} {K }} right) ^ {2}}}}}

Второй основан на MNDif

{ displaystyle operatorname {StDev} _ {2} = 1 - { sqrt { frac { sum _ {i = 1} ^ {K-1} sum _ {j = i + 1} ^ {K} (f_ {i} -f_ {j}) ^ {2}} {N ^ {2} (K-1)}}}}

HRel

Этот индекс был первоначально разработан Клод Шеннон для использования при указании свойств каналов связи.

{ displaystyle operatorname {HRel} = { frac {- sum p_ {i} log _ {2} p_ {i}} { log _ {2} K}}}

куда п_я = ж_я / N.

Это эквивалентно информационная энтропия разделенный на ${ Displaystyle журнал _ {2} (К)}$ и полезен для сравнения относительной вариации между таблицами частот разных размеров.

Индекс B

Уилкокс адаптировал предложение Кайзера^[6] на основе среднего геометрического и создал B ' индекс. В B индекс определяется как

{ Displaystyle B = 1 - { sqrt {1- left [{ sqrt [{k}] { prod _ {i = 1} ^ {k} { frac {f_ {i} K} {N}) }}} , right] ^ {2}}}}

Пакеты R

Некоторые из этих индексов были реализованы на языке R.^[7]

Индексы Гибба и родственные формулы

Гиббс и Постон младший (1975) предложил шесть индексов.^[8]

M1

Нестандартизованный индекс (M1) (Гиббс и Постон-младший, 1975, п. 471) является

{ Displaystyle M1 = 1- сумма _ {я = 1} ^ {K} p_ {я} ^ {2}}

куда K количество категорий и ${ displaystyle p_ {i} = f_ {i} / N}$ это доля наблюдений, попадающих в данную категорию я.

M1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории,^[9] так что эта формула для IQV представляет собой стандартизированную вероятность попадания случайной пары в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он использовался.

M2

Второй индекс - это M2^[10] (Гиббс и Постон-младший, 1975, п. 472) это:

{ displaystyle M2 = { frac {K} {K-1}} left (1- sum _ {i = 1} ^ {K} p_ {i} ^ {2} right)}

куда K количество категорий и ${ displaystyle p_ {i} = f_ {i} / N}$ это доля наблюдений, попадающих в данную категорию я. Фактор ${ displaystyle { frac {K} {K-1}}}$ предназначен для стандартизации.

M1 и M2 можно интерпретировать с точки зрения дисперсии полиномиальное распределение (Swanson 1976 г. ) (там называется «расширенной биномиальной моделью»). M1 - дисперсия полиномиального распределения и M2 - отношение дисперсии полиномиального распределения к дисперсии биномиальное распределение.

M4

В M4 индекс

{ displaystyle M4 = { frac { sum _ {i = 1} ^ {K} | X_ {i} -m |} {2 sum _ {i = 1} ^ {K} X_ {i}}} }

куда м это среднее.

M6

Формула для M6 это

{ displaystyle M6 = K left [1 - { frac { sum _ {i = 1} ^ {K} | X_ {i} -m |} {2N}} right]}

·куда K количество категорий, Икс_я это количество точек данных в я^th категория N - общее количество точек данных, || это абсолютная величина (модуль) и

{ displaystyle m = { frac { sum _ {i = 1} ^ {K} X_ {i}} {N}}}

Эту формулу можно упростить

{ displaystyle M6 = K left [1 - { frac { sum _ {i = 1} ^ {K} left | p_ {i} - { frac {1} {N}} right |} { 2}} right]}

куда п_я - доля образца в я^th категория.

На практике M1 и M6, как правило, сильно коррелированы, что препятствует их совместному использованию.

Связанные индексы

Сумма

{ Displaystyle сумма _ {я = 1} ^ {K} p_ {я} ^ {2}}

также нашла применение. Это известно как индекс Симпсона в экология и как Индекс Херфиндаля или индекс Херфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен в микробиологии как индекс Хантера-Гастона.^[11]

В лингвистике и криптоанализ эта сумма известна как частота повторения. В случайность совпадения (IC) является беспристрастным оценщик этой статистики^[12]

{ displaystyle operatorname {IC} = sum { frac {f_ {i} (f_ {i} -1)} {n (n-1)}}}

куда ж_я это счет я^th графема в тексте и п - общее количество графем в тексте.

M1

В M1 статистика, определенная выше, предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини,^[13] Мера разнообразия Симпсона,^[14] Индекс лингвистической однородности Бачи,^[15] Индекс качественной изменчивости Мюллера и Шесслера,^[16] Индекс отраслевой диверсификации Гиббса и Мартина,^[17] Индекс Либерсона.^[18] и индекс Блау по социологии, психологии и исследованиям в области менеджмента.^[19] Формулировка всех этих показателей идентична.

Симпсона D определяется как

{ displaystyle D = 1- sum _ {i = 1} ^ {K} { frac {n_ {i} (n_ {i} -1)} {n (n-1)}}}

куда п - общий размер выборки и п_я количество элементов в i^th категория.

Для больших п у нас есть

{ Displaystyle и сим 1- сумма _ {я = 1} ^ {K} p_ {я} ^ {2}}

Другой статистический показатель, который был предложен, - это коэффициент несхожести, который находится в диапазоне от 0 до 1.^[20]

{ Displaystyle и = { гидроразрыва {с (х, у)} {п ^ {2} -n}}}

куда п размер выборки и c(Икс,у) = 1, если Икс и у одинаковы и 0 в противном случае.

Для больших п у нас есть

{ Displaystyle и сим 1- сумма _ {я = 1} ^ {K} p_ {я} ^ {2}}

куда K это количество категорий.

Другая связанная статистика - квадратичная энтропия

{ displaystyle H ^ {2} = 2 left (1- sum _ {i = 1} ^ {K} p_ {i} ^ {2} right)}

что само по себе связано с Индекс Джини.

M2

Одноязычный невзвешенный индекс языкового разнообразия Гринберга^[21] это M2 статистики, определенные выше.

M7

Другой индекс - M7 - создан на базе M4 указатель Гиббс и Постон младший (1975)^[22]

{ displaystyle M7 = { frac { sum _ {i = 1} ^ {K} sum _ {j = 1} ^ {L} | R_ {i} -R |} {2 sum R_ {i} }}}

куда

{ displaystyle R_ {ij} = { frac {O_ {ij}} {E_ {ij}}} = { frac {O_ {ij}} {n_ {i} p_ {j}}}}

и

{ displaystyle R = { frac { sum _ {i = 1} ^ {K} sum _ {j = 1} ^ {L} R_ {ij}} { sum _ {i = 1} ^ {K } н_ {i}}}}

куда K количество категорий, L количество подтипов, О_ij и E_ij - количество наблюдаемых и ожидаемых соответственно подтипа j в я^th категория п_я это число в я^th категория и п_j доля подтипа j в полном образце.

Примечание. Этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов мужчин и женщин.

Другие индексы единичной выборки

Эти индексы представляют собой сводную статистику вариаций внутри выборки.

Индекс Бергера – Паркера

В Индекс Бергера – Паркера равно максимуму ${ displaystyle p_ {i}}$ значение в наборе данных, то есть пропорциональная численность наиболее распространенного типа.^[23] Это соответствует взвешенному обобщенному среднему значению ${ displaystyle p_ {i}}$ ценности, когда q стремится к бесконечности и, следовательно, равняется обратной величине истинного разнообразия бесконечного порядка (1 /^∞D).

Индекс разнообразия Бриллюэна

Этот индекс строго применим только ко всей совокупности, а не к конечным выборкам. Он определяется как

{ displaystyle I_ {B} = { frac { log (N!) - sum _ {i = 1} ^ {K} ( log (n_ {i}!))} {N}}}

куда N - общее количество особей в популяции, п_я количество особей в я^th категория и N! это факториал из N. Индекс ровности Бриллюэна определяется как

{ Displaystyle E_ {B} = I_ {B} / I_ {B ( max)}}

куда я_{B(Максимум)} это максимальное значение я_B.

Числа разнообразия Хилла

Хилл предложил семейство чисел разнообразия^[24]

{ displaystyle N_ {a} = { frac {1} { left [ sum _ {i = 1} ^ {K} p_ {i} ^ {a} right] ^ {a-1}}}}

Для заданных значений a можно вычислить несколько других индексов.

а = 0: N_а = видовое богатство
а = 1: N_а = Индекс Шеннона
а = 2: N_а = 1 / индекс Симпсона (без поправки на малую выборку)
а = 3: N_а = 1 / индекс Бергера – Паркера

Хилл также предложил семейство мер ровности

{ displaystyle E_ {a, b} = { frac {N_ {a}} {N_ {b}}}}

куда а > б.

Hill's E₄ является

{ displaystyle E_ {4} = { frac {N_ {2}} {N_ {1}}}}

Hill's E₅ является

{ displaystyle E_ {5} = { frac {N_ {2} -1} {N_ {1} -1}}}

Индекс Маргалефа

{ displaystyle I _ { text {Marg}} = { frac {S-1} { log _ {e} N}}}

куда S - количество типов данных в образце и N - общий размер выборки.^[25]

Индекс Менхиника

{ displaystyle I _ { mathrm {Men}} = { frac {S} { sqrt {N}}}}

куда S - количество типов данных в образце и N - общий размер выборки.^[26]

В лингвистика этот индекс идентичен индексу Курашкевича (индекс Гуяра), где S количество различных слов (типов) и N - общее количество слов (токенов) в исследуемом тексте.^[27]^[28] Этот индекс может быть получен как частный случай обобщенной функции Торквиста.^[29]

Q статистика

Это статистика, изобретенная Кемптоном и Тейлором.^[30] и включает квартили выборки. Он определяется как

{ displaystyle Q = { frac {{ frac {1} {2}} (n_ {R1} + n_ {R2}) + sum _ {j = R_ {1} +1} ^ {R_ {2}) -1} n_ {j}} { log (R_ {2} / R_ {1})}}}

куда р₁ и р₁ - квартили 25% и 75% соответственно на кумулятивной кривой видов, п_j количество видов в j_th категория п_Ri - количество видов в классе, где р_я падает (я = 1 или 2).

Индекс Шеннона – Винера

Это взято из теории информации

{ displaystyle H = log _ {e} N - { frac {1} {N}} sum n_ {i} p_ {i} log (p_ {i})}

куда N - общее количество в выборке и п_я пропорция в я^th категория.

В экологии, где обычно используется этот индекс, ЧАС обычно находится в пределах от 1,5 до 3,5 и редко превышает 4,0.

Приблизительная формула стандартного отклонения (SD) ЧАС является

{ displaystyle operatorname {SD} (H) = { frac {1} {N}} left [ sum p_ {i} [ log _ {e} (p_ {i})] ^ {2} - H ^ {2} right]}

куда п_я это доля, составляющая я^th категория и N это сумма в выборке.

Более точное приблизительное значение дисперсии ЧАС(var (ЧАС)) дан кем-то^[31]

{ displaystyle operatorname {var} (H) = { frac { sum p_ {i} [ log (p_ {i})] ^ {2} - left [ sum p_ {i} log (p_ {i}) right] ^ {2}} {N}} + { frac {K-1} {2N ^ {2}}} + { frac {-1+ sum p_ {i} ^ {2 } - sum p_ {i} ^ {- 1} log (p_ {i}) + sum p_ {i} ^ {- 1} sum p_ {i} log (p_ {i})} {6N ^ {3}}}}

куда N размер выборки и K это количество категорий.

Связанный индекс - Pielou J определяется как

{ displaystyle J = { frac {H} { log _ {e} (S)}}}

Одна из трудностей с этим индексом заключается в том, что S для конечной выборки неизвестно. На практике S обычно устанавливается на максимум, присутствующий в любой категории в выборке.

Энтропия Реньи

В Энтропия Реньи является обобщением энтропии Шеннона на другие значения q чем единство. Это может быть выражено:

{ displaystyle {} ^ {q} H = { frac {1} {1-q}} ; ln left ( sum _ {i = 1} ^ {K} p_ {i} ^ {q} верно)}

что равно

{ displaystyle {} ^ {q} H = ln left ({1 over { sqrt [{q-1}] { sum _ {i = 1} ^ {K} p_ {i} p_ {i) } ^ {q-1}}}} right) = ln ({} ^ {q} ! D)}

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q.

Значение ${ displaystyle {} ^ {q} ! D}$ также известен как число Хилла.^[24]

D и E Макинтоша

{ displaystyle D = { frac {N - { sqrt { sum _ {i = 1} ^ {K} n_ {i}}}} {N - { sqrt {N}}}}}

куда N - общий размер выборки и п_я это число в я^th категория.

{ displaystyle E = { frac {N - { sqrt { sum _ {i = 1} ^ {K} n_ {i}}}} {N - { frac {N} { sqrt {K}} }}}}

куда K это количество категорий.

Альфа Фишера

Это был первый индекс разнообразия.^[32]

${ Displaystyle К = альфа ln (1 + { гидроразрыва {N} { alpha}})}$

куда K количество категорий и N - количество точек данных в выборке. Фишера α должен быть оценен численно на основе данных.

Ожидаемое количество особей в р^th категория, в которой категории были увеличены в размере,

{ displaystyle operatorname {E} (n_ {r}) = alpha { frac {X ^ {r}} {r}}}

куда Икс является эмпирическим параметром, лежащим между 0 и 1. Хотя X лучше всего оценивается численно, приблизительное значение можно получить, решив следующие два уравнения

{ displaystyle N = { frac { alpha X} {1-X}}}

{ Displaystyle К = - альфа пер (1-X)}

куда K количество категорий и N - общий размер выборки.

Дисперсия α примерно^[33]

{ displaystyle operatorname {var} ( alpha) = { frac { alpha} { ln (X) (1-X)}}}

Индекс Стронга

Этот индекс (D_ш) - расстояние между Кривая Лоренца распространения видов и линии 45 градусов. Он тесно связан с коэффициентом Джини.^[34]

В символах это

{ displaystyle D_ {w} = max [{ frac {c_ {i}} {K}} - { frac {i} {N}}]}

где max () - максимальное значение, принятое за N точки данных, K количество категорий (или видов) в наборе данных и c_я это совокупная сумма, включая я_th категория.

E Симпсона

Это связано с синдромом Симпсона. D и определяется как

{ displaystyle E = { frac {1 / D} {K}}}

куда D Симпсона D и K - количество категорий в выборке.

Индексы Смита и Уилсона

Смит и Уилсон предложили ряд индексов, основанных на D.

{ displaystyle E_ {1} = { frac {1-D} {1 - { frac {1} {K}}}}}

{ displaystyle E_ {2} = { frac { log _ {e} (D)} { log _ {e} (K)}}}

куда D Симпсона D и K это количество категорий.

Индекс Хейпа

{ displaystyle E = { frac {e ^ {H} -1} {K-1}}}

куда ЧАС энтропия Шеннона и K это количество категорий.

Этот индекс тесно связан с индексом Шелдона, который

{ displaystyle E = { frac {e ^ {H}} {K}}}

куда ЧАС энтропия Шеннона и K это количество категорий.

Индекс Камарго

Этот индекс был создан Камарго в 1993 году.^[35]

${ displaystyle E = 1- sum _ {i = 1} ^ {K} sum _ {j = i + 1} ^ {K} { frac {p_ {i} -p_ {j}} {K} }}$

куда K количество категорий и п_я пропорция в я^th категория.

Смит и Уилсон B

Этот индекс был предложен Смитом и Уилсоном в 1996 году.^[36]

{ displaystyle B = 1 - { frac {2} { pi}} arctan ( theta)}

куда θ - наклон кривой логарифма (содержания) ранга.

Индекс Ни, Харви и Котгрива

Это наклон кривой логарифма (обилия) ранга.

Буллы E

Есть две версии этого индекса - одна для непрерывных распределений (E_c), а другой - для дискретных (E_d).^[37]

{ displaystyle E_ {c} = { frac {O - { frac {1} {K}}} {1 - { frac {1} {K}}}}}

{ displaystyle E_ {d} = { frac {O - { frac {1} {K}} - { frac {K-1} {N}}} {1 - { frac {1} {K} } - { frac {K-1} {N}}}}}

куда

{ displaystyle O = 1 - { frac {1} {2}} left | p_ {i} - { frac {1} {K}} right |}

- индекс Шенера – Чеканоски, K количество категорий и N размер выборки.

Индекс теории информации Хорна

Этот индекс (р_ik) основан на энтропии Шеннона.^[38] Он определяется как

{ displaystyle R_ {ik} = { frac {H _ { max} -H _ { mathrm {obs}}} {H _ { max} -H _ { min}}}}

куда

{ Displaystyle X = сумма x_ {ij}}

{ Displaystyle X = сумма x_ {kj}}

{ Displaystyle H (X) = sum { frac {x_ {ij}} {X}} log { frac {X} {x_ {ij}}}}

{ displaystyle H (Y) = sum { frac {x_ {kj}} {Y}} log { frac {Y} {x_ {kj}}}}

{ displaystyle H _ { min} = { frac {X} {X + Y}} H (X) + { frac {Y} {X + Y}} H (Y)}

{ displaystyle H _ { max} = sum left ({ frac {x_ {ij}} {X + Y}} log { frac {X + Y} {x_ {ij}}}} + { frac {x_ {kj}} {X + Y}} log { frac {X + Y} {x_ {kj}}} right)}

{ displaystyle H _ { mathrm {obs}} = sum { frac {x_ {ij} + x_ {kj}} {X + Y}} log { frac {X + Y} {x_ {ij} + x_ {kj}}}}

В этих уравнениях Икс_ij и Икс_кДж сколько раз j^th тип данных отображается в я^th или же k^th образец соответственно.

Индекс разреженности

В разреженной выборке случайная подвыборка п в выбранном из общего числа N Предметы. В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Позволять ${ displaystyle X_ {n}}$ быть количеством групп, все еще присутствующих в подвыборке п Предметы. ${ displaystyle X_ {n}}$ меньше чем K количество категорий, когда хотя бы одна группа отсутствует в этой подвыборке.

В кривая разрежения, ${ displaystyle f_ {n}}$ определяется как:

{ displaystyle f_ {n} = operatorname {E} [X_ {n}] = K - { binom {N} {n}} ^ {- 1} sum _ {i = 1} ^ {K} { binom {N-N_ {i}} {n}}}

Обратите внимание, что 0 ≤ ж(п) ≤ K.

Более того,

{ Displaystyle f (0) = 0, f (1) = 1, f (N) = K.}

Несмотря на то, что они определены при дискретных значениях п, эти кривые чаще всего отображаются как непрерывные функции.^[39]

Этот индекс обсуждается далее в Редкость (экология).

Caswell's V

Это z статистика типа, основанная на энтропии Шеннона.^[40]

{ Displaystyle V = { гидроразрыва {H- operatorname {E} (H)} { operatorname {SD} (H)}}}

куда ЧАС энтропия Шеннона, E(ЧАС) - ожидаемая энтропия Шеннона для нейтральной модели распределения и SD(ЧАС) - стандартное отклонение энтропии. Стандартное отклонение рассчитывается по формуле, полученной Пиелу

{ displaystyle SD (H) = { frac {1} {N}} left [ sum p_ {i} [ log _ {e} (p_ {i})] ^ {2} -H ^ {2 }верно]}

куда п_я это доля, составляющая я^th категория и N это сумма в выборке.

Индекс Ллойда и Геларди

Это

{ displaystyle I_ {LG} = { frac {K} {K '}}}

куда K количество категорий и K ' - количество категорий согласно модели сломанной палки Макартура, дающих наблюдаемое разнообразие.

Средний индекс таксономической отличимости

Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами.^[41] Он включает информацию о филогенетических отношениях между видами хозяев.

{ displaystyle S_ {TD} = 2 { frac { sum sum _ {я

куда s количество видов хозяев, используемых паразитом, и ω_ij таксономическая различие между видами хозяев я и j.

Индекс качественной вариации

Было предложено несколько индексов с таким названием.

Один из них

{ displaystyle IQV = { frac {K (100 ^ {2} - sum _ {i = 1} ^ {K} p_ {i} ^ {2})} {100 ^ {2} (K-1) }} = { frac {K} {K-1}} (1- sum _ {i = 1} ^ {K} (p_ {i} / 100) ^ {2})}

куда K количество категорий и п_я - доля выборки, которая лежит в i^th категория.

Theil’s H

Этот индекс также известен как индекс многогрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году.^[42] Индекс представляет собой средневзвешенное значение энтропии выборки.

Позволять

{ displaystyle E_ {a} = sum _ {i = 1} ^ {a} p_ {i} log (p_ {i})}

и

${ displaystyle H = sum _ {i = 1} ^ {r} { frac {n_ {i} (E-E_ {i})} {NE}}}$

куда п_я это пропорция типа я в а^th образец, р общее количество выборок, п_я это размер я^th образец, N - размер совокупности, из которой были получены образцы, и E - энтропия населения.

Индексы для сравнения двух или более типов данных в одной выборке

Некоторые из этих индексов были разработаны для документирования того, в какой степени различные интересующие типы данных могут сосуществовать в пределах одной географической области.

Индекс несходства

Позволять А и B быть двумя типами данных. Тогда показатель несходства равен

{ displaystyle D = { frac {1} {2}} sum _ {i = 1} ^ {K} left | { frac {A_ {i}} {A}} - { frac {B_ { i}} {B}} right |}

куда

{ Displaystyle А = сумма _ {я = 1} ^ {К} А_ {я}}

{ Displaystyle B = сумма _ {я = 1} ^ {K} B_ {я}}

А_я это номер типа данных А на образце сайта я, B_я это номер типа данных B на образце сайта я, K - количество выбранных сайтов и || - абсолютное значение.

Этот индекс, вероятно, более известен как индекс несходства (D).^[43] Он тесно связан с индексом Джини.

Этот индекс смещен, поскольку его математическое ожидание при равномерном распределении> 0.

Модификация этого индекса была предложена Горардом и Тейлором.^[44] Их индекс (GT) равен

{ displaystyle GT = D left (1 - { frac {A} {A + B}} right)}

Индекс сегрегации

Индекс сегрегации (ЯВЛЯЕТСЯ)^[45] является

{ displaystyle SI = { frac {1} {2}} sum _ {i = 1} ^ {K} left | { frac {A_ {i}} {A}} - { frac {t_ { i} -A_ {i}} {TA}} right |}

куда

{ Displaystyle А = сумма _ {я = 1} ^ {К} А_ {я}}

{ Displaystyle Т = сумма _ {я = 1} ^ {К} т_ {я}}

и K это количество единиц, А_я и т_я это номер типа данных А в единице я и общее количество всех типов данных в единице я.

Индекс квадратного корня Хатчена

Этот индекс (ЧАС) определяется как^[46]

{ displaystyle H = 1- sum _ {i = 1} ^ {K} sum _ {j = 1} ^ {i} { sqrt {p_ {i} p_ {j}}}}

куда п_я - доля выборки, состоящая из я^th варьироваться.

Индекс изоляции Либерсона

Этот индекс ( L_ху ) был изобретен Либерсоном в 1981 году.^[47]

{ displaystyle L_ {xy} = { frac {1} {N}} sum _ {i = 1} ^ {K} { frac {X_ {i} Y_ {i}} {X _ { mathrm {tot }}}}}

куда Икс_я и Y_я представляют интерес переменные на я^th сайт, K количество проверенных сайтов и Икс_малыш общее количество разновидностей типа Икс В исследовании.

Индекс Белла

Этот индекс определяется как^[48]

{ displaystyle I_ {R} = { frac {p_ {xx} -p_ {x}} {1-p_ {x}}}}

куда п_Икс - доля выборки, состоящая из переменных типа Икс и

{ displaystyle p_ {xx} = { frac { sum _ {i = 1} ^ {K} x_ {i} p_ {i}} {N_ {x}}}}

куда N_Икс это общее количество вариантов типа Икс В исследовании, K количество образцов в исследовании и Икс_я и п_я количество вариаций и доля вариаций типа Икс соответственно в я^th образец.

Индекс изоляции

{ displaystyle II = sum _ {i = 1} ^ {K} { frac {A_ {i}} {A}} { frac {A_ {i}} {t_ {i}}}}

куда K количество единиц в исследовании, А_я и т_я количество единиц типа А и количество всех единиц в я_th образец.

Также был предложен модифицированный индекс изоляции.

{ displaystyle MII = { frac {II - { frac {A} {T}}} {1 - { frac {A} {T}}}}}

В MII лежит между 0 и 1.

Индекс сегрегации Горарда

Этот индекс (GS) определяется как

{ displaystyle GS = { frac {1} {2}} sum _ {i = 1} ^ {K} left | { frac {A_ {i}} {A}} - { frac {t_ { i}} {T}} right |}

куда

{ Displaystyle А = сумма _ {я = 1} ^ {К} А_ {я}}

{ Displaystyle Т = сумма _ {я = 1} ^ {К} т_ {я}}

и А_я и т_я количество элементов данных типа А и общее количество элементов в я^th образец.

Индекс воздействия

Этот индекс определяется как

{ displaystyle IE = sum _ {i = 1} ^ {K} { frac {A_ {i}} {A}} { frac {B_ {i}} {t_ {i}}}}

куда

{ Displaystyle А = сумма _ {я = 1} ^ {К} А_ {я}}

и А_я и B_я количество типов А и B в я^th категория и т_я это общее количество точек данных в я^th категория.

Индекс Очая

Это двоичная форма индекса косинуса.^[49] Он используется для сравнения данных о наличии / отсутствии двух типов данных (здесь А и B). Он определяется как

{ Displaystyle О = { гидроразрыва {а} { sqrt {(а + б) (а + с)}}}}

куда а - количество единиц выборки, где оба А и B найдены, б - количество единиц выборки, где А но нет B происходит и c это количество единиц выборки, где тип B присутствует, но не тип А.

Коэффициент Кульчинского

Этот коэффициент был изобретен Станислав Кульчинский в 1927 г.^[50] и является индексом связи между двумя типами (здесь А и B). Его значение варьируется от 0 до 1. Он определяется как

{ displaystyle K = { frac {a} {2}} left ({ frac {1} {a + b}} + { frac {1} {a + c}} right)}

куда а это количество единиц выборки, где тип А и введите B присутствуют, б это количество единиц выборки, где тип А но не тип B присутствует и c это количество единиц выборки, где тип B присутствует, но не тип А.

Q Yule's

Этот индекс был изобретен Юлом в 1900 году.^[51] Это касается ассоциации двух разных типов (здесь А и B). Он определяется как

{ displaystyle Q = { frac {ad-bc} {ad + bc}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. Q варьируется от -1 до +1. В порядковом регистре Q известен как Гудман-Крускал γ.

Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали прибавить +1 к а, б, c и d.^[52]

Yule's Y

Этот индекс определяется как

{ displaystyle Y = { frac {{ sqrt {ad}} - { sqrt {bc}}} {{ sqrt {ad}} + { sqrt {bc}}}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Барони – Урбани – Баззера

Этот индекс был изобретен Барони-Урбани и Базером в 1976 году.^[53] Его значение варьируется от 0 до 1. Он определяется как

${ displaystyle BUB = { frac {{ sqrt {ad}} + a} {{ sqrt {ad}} + a + b + c}} = { frac {{ sqrt {ad}} + a} {N + { sqrt {ad}} - d}} = 1 - { frac {N- (ad)} {N + { sqrt {ad}} - d}}}$

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Когда d = 0, этот индекс идентичен индексу Жаккара.

Коэффициент Хаммана

Этот коэффициент определяется как

{ displaystyle H = { frac {(a + d) - (b + c)} {a + b + c + d}} = { frac {(a + d) - (b + c)} {N }}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Роджерса – Танимото

Этот коэффициент определяется как

{ Displaystyle RT = { frac {a + d} {a + 2 (b + c) + d}} = { frac {a + d} {N + b + c}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки

Коэффициент Сокаля – Снита

Этот коэффициент определяется как

{ displaystyle SS = { frac {2 (a + d)} {2 (a + d) + b + c}} = { frac {2 (a + d)} {N + a + d}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Бинарное расстояние Сокаля

Этот коэффициент определяется как

{ displaystyle SBD = { sqrt { frac {b + c} {a + b + c + d}}} = { sqrt { frac {b + c} {N}}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Рассела – Рао

Этот коэффициент определяется как

{ displaystyle RR = { frac {a} {a + b + c + d}} = { frac {a} {N}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Phi

Этот коэффициент определяется как

{ displaystyle varphi = { frac {ad-bc} { sqrt {(a + b) (a + c) (b + c) (c + d)}}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Сёргеля

Этот коэффициент определяется как

{ displaystyle S = { frac {b + c} {b + c + d}} = { frac {b + c} {N-a}}}

куда б это количество образцов, где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Симпсона

Этот коэффициент определяется как

{ Displaystyle S = { гидроразрыва {a} {a + min (b, c)}}}

куда б это количество образцов, где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А.

Коэффициент Денниса

Этот коэффициент определяется как

{ displaystyle D = { frac {ad-bc} { sqrt {(a + b + c + d) (a + b) (a + c)}}} = { frac {ad-bc} { sqrt {N (a + b) (a + c)}}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Форбса

Этот коэффициент был предложен Стивен Альфред Форбс в 1907 г.^[54] Он определяется как

{ Displaystyle F = { гидроразрыва {aN} {(a + b) (a + c)}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Модификация этого коэффициента была предложена Alroy.^[55]

{ displaystyle F_ {A} = { frac {a (N + { sqrt {N}})} {a (N + { sqrt {N}}) + { frac {3} {2}} bc}} = 1 - { frac {3bc} {2a (N + { sqrt {N}}) + 3bc}}}

Коэффициент простого соответствия

Этот коэффициент определяется как

{ displaystyle SM = { frac {a + d} {a + b + c + d}} = { frac {a + d} {N}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Фоссума

Этот коэффициент определяется как

{ displaystyle F = { frac {(a + b + c + d) (a-0,5) ^ {2}} {(a + b) (a + c)}} = { frac {N (a- 0.5) ^ {2}} {(a + b) (a + c)}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Стайла

Этот коэффициент определяется как

{ displaystyle S = log left [{ frac {n (| ad-bc | - { frac {n} {2}}) ^ {2}} {(a + b) (a + c) ( b + d) (c + d)}} right]}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А, d это количество выборок, где ни один из типов А ни типа B присутствуют, п равно а + б + c + d и || - модуль (абсолютное значение) разности.

Коэффициент Майкла

Этот коэффициент определяется как

{ displaystyle M = { frac {4 (ad-bc)} {(a + d) ^ {2} + (b + c) ^ {2}}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Пирса

В 1884 г. Чарльз Пирс предложенный^[56] следующий коэффициент

{ displaystyle P = { frac {ab + bc} {ab + 2bc + cd}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Хокина – Дотсона

В 1975 году Хокин и Дотсон предложили следующий коэффициент

{ displaystyle HD = { frac {1} {2}} left ({ frac {a} {a + b + c}} + { frac {d} {b + c + d}} right) = { frac {1} {2}} left ({ frac {a} {Nd}} + { frac {d} {Na}} right)}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Бенини

В 1901 году Бенини предложил следующий коэффициент

{ Displaystyle B = { гидроразрыва {a- (a + b) (a + c)} {a + min (b, c) - (a + b) (a + c)}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А. Мин (б, c) - минимум б и c.

Коэффициент Гилберта

Гилберт предложил следующий коэффициент

{ displaystyle G = { frac {a- (a + b) (a + c)} {a + b + c- (a + b) (a + c)}} = { frac {a- (a + b) (a + c)} {N- (a + b) (a + c) -d}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Индекс Джини

{ Displaystyle G = { гидроразрыва {a- (a + b) (a + c)} { sqrt {(1- (a + b) ^ {2}) (1- (a + c) ^ {2 })}}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А.

Модифицированный индекс Джини

{ displaystyle G_ {M} = { frac {a- (a + b) (a + c)} {1 - { frac {| bc |} {2}} - (a + b) (a + c )}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А.

Индекс Куна

Кун предложил следующий коэффициент в 1965 г.

{ Displaystyle I = { гидроразрыва {2 (ad-bc)} {K (2a + b + c)}} = { frac {2 (ad-bc)} {K (N + a-d)}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А. K - нормализующий параметр. N размер выборки.

Этот показатель также известен как коэффициент среднего арифметического.

Индекс Эйро

Эйро предложил следующий коэффициент в 1936 г.

{ Displaystyle I = { гидроразрыва {a- (a + b) (a + c)} {(a + c) (a + d) (b + d) (c + d)}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d - количество образцов, в которых оба А и B нет.

Расстояние Сергеля

Это определяется как

{ displaystyle operatorname {SD} = { frac {b + c} {b + c + d}} = { frac {b + c} {N-a}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d - количество образцов, в которых оба А и B нет. N размер выборки.

Индекс Танимото

Это определяется как

{ displaystyle TI = 1 - { frac {a} {b + c + d}} = 1 - { frac {a} {N-a}} = { frac {N-2a} {N-a}}}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d - количество образцов, в которых оба А и B нет. N размер выборки.

Индекс Пятецкого – Шапиро

Это определяется как

{ displaystyle PSI = a-bc}

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А.

Индексы для сравнения двух или более образцов

Количественный индекс Чекановского

Это также известно как Индекс Брея – Кертиса, Индекс Шенера, индекс наименьшего общего процента, индекс сродства или пропорционального сходства. Это связано с Индекс сходства Соренсена.

{ displaystyle CZI = { frac { sum min (x_ {i}, x_ {j})} { sum (x_ {i} + x_ {j})}}}

куда Икс_я и Икс_j количество видов на участках я и j соответственно, и минимум берется по количеству общих видов между двумя участками.

Канберрская метрика

В Канберрское расстояние является взвешенной версией L₁ метрика. Он был представлен введен в 1966 году.^[57] и усовершенствован в 1967 г.^[58] Дж. Н. Ланс и У. Т. Уильямс. Он используется для определения расстояния между двумя векторами - здесь два сайта с K категории на каждом сайте.

Канберрское расстояние d между векторами п и q в K-размерный настоящий векторное пространство является

{ displaystyle d ( mathbf {p}, mathbf {q}) = sum _ {i = 1} ^ {n} { frac {| p_ {i} -q_ {i} |} {| p_ { i} | + | q_ {i} |}}}

куда п_я и q_я являются значениями я^th категория двух векторов.

Коэффициент общности Соренсена

Это используется для измерения сходства между сообществами.

{ displaystyle CC = { frac {2c} {s_ {1} + s_ {2}}}}

куда s₁ и s₂ - количество видов в сообществе 1 и 2 соответственно и c количество видов, общих для обоих районов.

Индекс Жаккара

Это мера сходства между двумя образцами:

{ displaystyle J = { frac {A} {A + B + C}}}

куда А количество точек данных, совместно используемых двумя образцами и B и C - это точки данных, обнаруженные только в первом и втором образцах соответственно.

Этот индекс был изобретен в 1902 году швейцарским ботаником. Поль Жаккар.^[59]

При случайном распределении ожидаемое значение J является^[60]

{ displaystyle J = { frac {1} {A}} left ({ frac {1} {A + B + C}} right)}

Стандартная ошибка этого индекса в предположении случайного распределения составляет

${ Displaystyle SE (J) = { sqrt { frac {A (B + C)} {N (A + B + C) ^ {3}}}}}$

куда N - общий размер выборки.

Индекс Дайса

Это мера сходства между двумя образцами:

{ Displaystyle D = { гидроразрыва {2A} {2A + B + C}}}

куда А количество точек данных, совместно используемых двумя образцами и B и C - это точки данных, обнаруженные только в первом и втором образцах соответственно.

Коэффициент соответствия

Это мера сходства между двумя образцами:

{ displaystyle M = { frac {N-B-C} {N}} = 1 - { frac {B + C} {N}}}

куда N - количество точек данных в двух выборках и B и C - это точки данных, обнаруженные только в первом и втором образцах соответственно.

Индекс Мориситы

Индекс дисперсии Мориситы ( я_м ) - это масштабированная вероятность того, что две точки, выбранные случайным образом из всей генеральной совокупности, находятся в одной выборке.^[61] Более высокие значения указывают на более сгущенное распределение.

{ Displaystyle I_ {м} = { гидроразрыва { сумма х (х-1)} {нм (м-1)}}}

Альтернативная формулировка:

{ displaystyle I_ {m} = n { frac { sum x ^ {2} - sum x} { left ( sum x right) ^ {2} - sum x}}}

куда п - общий размер выборки, м выборочное среднее и Икс - отдельные значения с суммой по всей выборке. Он также равен

{ displaystyle I_ {m} = { frac {n IMC} {нм-1}}}

куда IMC - индекс скученности Ллойда.^[62]

Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки.

Морисита показал, что статистика^[61]

{ Displaystyle I_ {м} влево ( сумма х-1 вправо) + п- сумма х}

распределяется как переменная хи-квадрат с п - 1 степень свободы.

Альтернативный критерий значимости этого индекса был разработан для больших выборок.^[63]

{ displaystyle z = { frac {I_ {m} -1} {2 / nm ^ {2}}}}

куда м общее среднее значение выборки, п - количество единиц выборки и z нормальное распределение абсцисса. Значимость проверяется путем сравнения значения z против ценностей нормальное распределение.

Индекс перекрытия Мориситы

Индекс перекрытия Моризиты используется для сравнения перекрытия между образцами.^[64] Индекс основан на предположении, что увеличение размера выборки увеличит разнообразие, потому что в него будут включены разные среды обитания.

{ displaystyle C_ {D} = { frac {2 sum _ {i = 1} ^ {S} x_ {i} y_ {i}} {(D_ {x} + D_ {y}) XY}}}

Икс_я это количество раз, когда виды я представлен в общем Икс от одного образца.

у_я это количество раз, когда виды я представлен в общем Y из другого образца.

D_Икс и D_у являются Индекс Симпсона ценности для Икс и у образцы соответственно.

S количество уникальных видов

C_D = 0, если две выборки не пересекаются по видам, и C_D = 1, если виды встречаются в одинаковых пропорциях в обоих образцах.

Horn's представила модификацию индекса^[65]

{ displaystyle C_ {H} = { frac {2 sum _ {i = 1} ^ {S} x_ {i} y_ {i}} { left ({ sum _ {i = 1} ^ {S } x_ {i} ^ {2} over X ^ {2}} + { sum _ {i = 1} ^ {S} y_ {i} ^ {2} over Y ^ {2}} right) XY}}}

Стандартизированный индекс Мориситы

Смит-Гилл разработал статистику на основе индекса Моризиты, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом^[66]

Сначала определите индекс Мориситы ( я_d ) обычным способом. Тогда пусть k быть количеством единиц, из которых была произведена выборка. Рассчитайте два критических значения

{ displaystyle M_ {u} = { frac { chi _ {0,975} ^ {2} -k + sum x} { sum x-1}}}

{ Displaystyle M_ {c} = { гидроразрыва { chi _ {0,025} ^ {2} -k + sum x} { sum x-1}}}

где χ² значение хи-квадрат для п - 1 степень свободы с уровнем достоверности 97,5% и 2,5%.

Стандартизированный индекс ( я_п ) затем вычисляется по одной из формул ниже

Когда я_d ≥ M_c > 1

{ displaystyle I_ {p} = 0,5 + 0,5 left ({ frac {I_ {d} -M_ {c}} {k-M_ {c}}} right)}

Когда M_c > я_d ≥ 1

{ displaystyle I_ {p} = 0,5 left ({ frac {I_ {d} -1} {M_ {u} -1}} right)}

Когда 1> я_d ≥ M_ты

{ displaystyle I_ {p} = - 0,5 left ({ frac {I_ {d} -1} {M_ {u} -1}} right)}

Когда 1> M_ты > я_d

{ displaystyle I_ {p} = - 0,5 + 0,5 left ({ frac {I_ {d} -M_ {u}} {M_ {u}}} right)}

я_п колеблется от +1 до -1 с 95% доверительным интервалом ± 0,5. я_п имеет значение 0, если шаблон случайный; если узор однородный, я_п <0 и если шаблон показывает агрегацию, я_п > 0.

Индексы ровности Пита

Эти индексы являются мерой равномерности между выборками.^[67]

{ displaystyle E_ {1} = { frac {I-I _ { min}} {I _ { max} -I _ { min}}}}

{ displaystyle E_ {2} = { frac {I} {I _ { max}}}}

куда я это показатель разнообразия, я_{Максимум} и я_мин - максимальное и минимальное значения я между сравниваемыми образцами.

Коэффициент Лёвингера

Лёвингер предложил коэффициент ЧАС определяется следующим образом:

{ displaystyle H = { sqrt { frac {p _ { max} (1-p _ { min})} {p _ { min} (1-p _ { max})}}}}

куда п_{Максимум} и п_мин - максимальная и минимальная пропорции в образце.

Индекс Тверски

Индекс Тверски ^[68] асимметричная мера, лежащая между 0 и 1.

Для образцов А и B индекс Тверски (S) является

{ displaystyle S = { frac {| A cap B |} {| A cap B | + alpha | A-B | + beta | B-A |}}}

Ценности α и β произвольны. Установка обоих α и β до 0,5 дает Коэффициент игральной кости. Установка обоих в 1 дает Коэффициент Танимото.

Предложен также симметричный вариант этого индекса.^[69]

{ displaystyle S_ {1} = { frac {| A cap B |} {| A cap B | + beta left ( alpha a + (1- alpha) b right)}}}

куда

{ Displaystyle а = мин влево (| X-Y |, | Y-X | вправо)}

{ Displaystyle б = макс влево (| X-Y |, | Y-X | вправо)}

Было предложено несколько подобных индексов.

Моностори и другие. предложил индекс симметричного подобия^[70]

{ Displaystyle SS (A, B) = { frac {| d (A) cap d (B) |} {| d (A) + d (B) |}}}

куда d(Икс) является некоторой мерой, производной отИкс.

Бернштейн и Зобель предложили индексы S2 и S3.^[71]

{ Displaystyle S2 = { гидроразрыва {| d (A) cap d (B) |} { min (| d (A) |, | d (B)) |}}}

{ Displaystyle S3 = { гидроразрыва {2 | d (A) cap d (B) |} {| d (A) + d (B) |}}}

S3 просто вдвое больше индекса SymmetricSimilarity. Оба связаны с коэффициентом Дайса.

Используемые показатели

Был предложен ряд показателей (расстояния между образцами).

Евклидово расстояние

Хотя он обычно используется в количественной работе, он также может использоваться в качественной работе. Это определяется как

{ displaystyle d_ {jk} = { sqrt { sum _ {i = 1} ^ {N} (x_ {ij} -x_ {ik}) ^ {2}}}}

куда d_jk это расстояние между Икс_ij и Икс_ik.

Расстояние Гауэра

Это определяется как

{ Displaystyle GD = { frac { Sigma _ {i = 1} ^ {n} w_ {i} d_ {i}} { Sigma _ {i = 1} ^ {n} w_ {i}}}}

куда d_я это расстояние между я^th образцы и ш_я взвешивание дает я^th расстояние.

Манхэттенское расстояние

Хотя он чаще используется в количественной работе, он также может использоваться в качественной работе. Это определяется как

{ displaystyle d_ {jk} = sum _ {i = 1} ^ {N} | x_ {ij} -x_ {ik} |}

куда d_jk это расстояние между Икс_ij и Икс_ik и || это абсолютная величина разницы между Икс_ij и Икс_ik.

Модифицированная версия манхэттенского расстояния может использоваться для нахождения нуля (корень ) из многочлен любой степень с помощью Метод Лилля.

Расстояние до Превости

Это связано с манхэттенским расстоянием. Его описал Превости. и другие. и использовался для сравнения различий между хромосомы.^[72] Позволять п и Q быть двумя коллекциями р конечные вероятностные распределения. Пусть эти распределения имеют значения, которые делятся на k категории. Тогда расстояние D_PQ является

{ displaystyle D_ {PQ} = { frac {1} {r}} sum _ {j = 1} ^ {r} sum _ {i = 1} ^ {k} | p_ {ji} -q_ { ji} |}

куда р - количество дискретных распределений вероятностей в каждой популяции, k_j это количество категорий в раздачах п_j и Q_j и п_джи (соответственно q_джи) - теоретическая вероятность категории я в распределении п_j (Q_j) в популяции п(Q).

Его статистические свойства были исследованы Санчесом. и другие.^[73] кто рекомендовал процедуру начальной загрузки для оценки доверительных интервалов при тестировании различий между образцами.

Прочие показатели

Позволять

{ Displaystyle A = сумма x_ {ij}}

{ Displaystyle B = сумма x_ {ik}}

{ Displaystyle J = сумма мин (x_ {ij}, x_ {jk})}

где min (Икс,у) - меньшее значение пары Икс и у.

потом

{ displaystyle d_ {jk} = A + B-2J}

расстояние до Манхэттена,

{ displaystyle d_ {jk} = { frac {A + B-2J} {A + B}}}

расстояние Брея-Кертиса,

{ displaystyle d_ {jk} = { frac {A + B-2J} {A + B-J}}}

расстояние Жаккара (или Ружички) и

{ displaystyle d_ {jk} = 1 - { frac {1} {2}} left ({ frac {J} {A}} + { frac {J} {B}} right)}

расстояние Кульчинского.

Сходства между текстами

HaCohen-Kerner et al. предложили различные метрики для сравнения двух и более текстов.^[74]

Порядковые данные

Если категории не менее порядковый затем можно вычислить ряд других индексов.

Leik's D

Мера дисперсии Лейка (D) является одним из таких индексов.^[75] Пусть будет K категории и пусть п_я быть ж_я/N куда ж_я это число в я^th category и пусть категории будут расположены в порядке возрастания. Позволять

{ displaystyle c_ {a} = sum _ {i = 1} ^ {a} p_ {i}}

куда а ≤ K. Позволять d_а = c_а если c_а ≤ 0,5 и 1 -c_а ≤ 0,5 в противном случае. потом

{ displaystyle D = 2 sum _ {a = i} ^ {K} { frac {d_ {a}} {K-1}}}

Нормализованная мера Герфиндаля

Это квадрат коэффициента вариации, деленный на N - 1 где N размер выборки.

{ displaystyle H = { frac {1} {N-1}} { frac {s ^ {2}} {m ^ {2}}}}

куда м это среднее и s стандартное отклонение.

Индекс потенциального конфликта

Индекс потенциального конфликта (PCI) описывает соотношение оценок по обе стороны от центральной точки рейтинговой шкалы.^[76] Для этого индекса требуются как минимум порядковые данные. Это соотношение часто отображается как пузырьковая диаграмма.

PCI использует порядковую шкалу с нечетным количеством рейтинговых баллов (-п к +п) с центром в 0. Он рассчитывается следующим образом

{ displaystyle PCI = { frac {X_ {t}} {Z}} left [1- left | { frac { sum _ {i = 1} ^ {r _ {+}} X _ {+}} {X_ {t}}} - { frac { sum _ {i = 1} ^ {r _ {-}} X _ {-}} {X_ {t}}} right | right]}

куда Z = 2п, | · | это абсолютная величина (модуль), р₊ - количество ответов в положительной части шкалы, р₋ - количество ответов в отрицательной части шкалы, Икс₊ отзывы на положительной стороне шкалы, Икс₋ это отзывы на отрицательной стороне шкалы и

{ displaystyle X_ {t} = sum _ {i = 1} ^ {r _ {+}} | X _ {+} | + sum _ {i = 1} ^ {r _ {-}} | X _ {-} |}

Известно, что с PCI существуют теоретические трудности. PCI можно вычислить только для весов с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Также равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее зависит от количества возможных ответов или значений на шкале. Например, пяти-, семи- и девятибалльная шкала с равномерным распределением ответов дает PCI 0,60, 0,57 и 0,50 соответственно.

Первая из этих проблем является относительно незначительной, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или уменьшить) на одно значение, чтобы получить нечетное количество возможных ответов. При необходимости весы обычно можно обновить заново. Вторую проблему решить сложнее, и она может ограничить применимость PCI.

PCI был расширен^[77]

{ displaystyle PCI_ {2} = { frac { sum _ {i = 1} ^ {K} sum _ {j = 1} ^ {i} k_ {i} k_ {j} d_ {ij}} { delta}}}

куда K количество категорий, k_я это число в я^th категория d_ij это расстояние между я^th и я^th категории и δ - максимальное расстояние на шкале, умноженное на количество раз, которое оно может встречаться в образце. Для образца с четным числом точек данных

{ displaystyle delta = { frac {N ^ {2}} {2}} d _ { max}}

и для образца с нечетным количеством точек данных

{ displaystyle delta = { frac {N ^ {2} -1} {2}} d _ { max}}

куда N - количество точек данных в выборке и d_{Максимум} - максимальное расстояние между точками шкалы.

Васке и другие. предложить ряд возможных мер расстояния для использования с этим индексом.^[77]

{ displaystyle D_ {1}: d_ {ij} = | r_ {i} -r_ {j} | -1}

если знаки (+ или -) р_я и р_j отличаются. Если знаки такие же d_ij = 0.

{ displaystyle D_ {2}: d_ {ij} = | r_ {i} -r_ {j} |}

{ displaystyle D_ {3}: d_ {ij} = | r_ {i} -r_ {j} | ^ {p}}

куда п - произвольное действительное число> 0.

{ displaystyle Dp_ {ij}: d_ {ij} = [| r_ {i} -r_ {j} | - (m-1)] ^ {p}}

если знак (р_я ) ≠ знак (р_я ) и п - действительное число> 0. Если знаки совпадают, то d_ij = 0. м является D₁, D₂ или же D₃.

Разница между D₁ и D₂ заключается в том, что первый не включает нейтралов на расстоянии, а второй - нет. Например, респонденты с оценками −2 и +1 будут иметь расстояние 2 меньше D₁ и 3 под D₂.

Использование силы (п) на расстояниях позволяет масштабировать экстремальные ответы. Эти различия можно выделить с помощью п > 1 или уменьшается с п < 1.

При моделировании с вариациями, взятыми из равномерного распределения, PCI₂ имеет симметричное одномодальное распределение.^[77] Хвосты его распределения больше, чем у нормального распределения.

Васке и другие. предложить использование t тест для сравнения значений PCI между выборками, если PCI приблизительно нормально распределены.

A ван дер Эйка

Этот показатель представляет собой средневзвешенное значение степени согласованности частотного распределения.^[78] А колеблется от -1 (идеально бимодальность ) до +1 (идеально унимодальность ). Он определяется как

{ displaystyle A = U left (1 - { frac {S-1} {K-1}} right)}

куда U - унимодальность распределения, S количество категорий, которые имеют ненулевые частоты и K общее количество категорий.

Значение U равно 1, если распределение имеет одну из трех следующих характеристик:

все ответы находятся в одной категории
ответы равномерно распределяются по всем категориям
ответы равномерно распределяются между двумя или более смежными категориями, при этом другие категории не имеют ответов

В других дистрибутивах данные должны быть разделены на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Значение для А для каждого слоя (А_я) вычисляется и определяется средневзвешенное значение для распределения. Веса (ш_я) для каждого уровня - это количество ответов в этом слое. В символах

{ displaystyle A _ { mathrm {total}} = sum w_ {i} A_ {i}}

А равномерное распределение имеет А = 0: когда все ответы попадают в одну категорию А = +1.

Одна теоретическая проблема с этим индексом заключается в том, что он предполагает, что интервалы расположены на одинаковом расстоянии. Это может ограничить его применимость.

Связанная статистика

Проблема дня рождения

Если есть п единиц в выборке, и они случайным образом распределяются по k категории (п ≤ k), это можно рассматривать как вариант проблема дня рождения.^[79] Вероятность (п) всех категорий, имеющих только одну единицу,

{ displaystyle p = prod _ {i = 1} ^ {n} left (1 - { frac {i} {k}} right)}

Если c большой и п мал по сравнению с k^2/3 тогда в хорошем приближении

{ displaystyle p = exp left ({ frac {-n ^ {2}} {2k}} right)}

Это приближение следует из точной формулы:

{ displaystyle log _ {e} left (1 - { frac {i} {k}} right) приблизительно - { frac {i} {k}}}

Оценка размера выборки

За п = 0,5 и п = 0,05 соответственно следующие оценки п может быть полезно

{ displaystyle n = 1,2 { sqrt {k}}}

{ displaystyle n = 2,448 { sqrt {k}} приблизительно 2,5 { sqrt {k}}}

Этот анализ можно расширить на несколько категорий. За п = 0,5 и п 0,05 имеем соответственно

{ displaystyle n = 1,2 { sqrt { frac {1} { sum _ {i = 1} ^ {k} { frac {1} {c_ {i}}}}}}}}

{ displaystyle n приблизительно 2,5 { sqrt { frac {1} { sum _ {i = 1} ^ {k} { frac {1} {c_ {i}}}}}}}

куда c_я это размер я^th категория. Этот анализ предполагает, что категории независимы.

Если данные упорядочены каким-либо образом, то хотя бы одно событие, происходящее в двух категориях, лежащих в j категории друг друга, чем вероятность 0,5 или 0,05, требует размера выборки (п) соответственно^[80]

{ displaystyle n = 1,2 { sqrt { frac {k} {2j + 1}}}}

{ displaystyle n приблизительно 2,5 { sqrt { frac {k} {2j + 1}}}}

куда k это количество категорий.

Проблема дня рождения-смерти

Существует ли связь между днями рождения и днями смерти, было исследовано статистикой.^[81]

{ displaystyle - log _ {10} left ({ frac {1 + 2d} {365}} right),}

куда d - количество дней в году между днем рождения и днем смерти.

Индекс Rand

В Индекс Rand используется для проверки того, согласны ли две или более системы классификации относительно набора данных.^[82]

Учитывая набор из ${ displaystyle n}$ элементы ${ Displaystyle S = {о_ {1}, ldots, о_ {п} }}$ и два перегородки из ${ displaystyle S}$ сравнивать, ${ Displaystyle X = {X_ {1}, ldots, X_ {r} }}$ , раздел S в р подмножества и ${ Displaystyle Y = {Y_ {1}, ldots, Y_ {s} }}$ , раздел S в s подмножества, определите следующее:

${ displaystyle a}$ , количество пар элементов в ${ displaystyle S}$ которые находятся в том же подмножестве в ${ displaystyle X}$ и в том же подмножестве в ${ displaystyle Y}$
${ displaystyle b}$ , количество пар элементов в ${ displaystyle S}$ которые находятся в разных подмножествах в ${ displaystyle X}$ и в разных подмножествах в ${ displaystyle Y}$
${ displaystyle c}$ , количество пар элементов в ${ displaystyle S}$ которые находятся в том же подмножестве в ${ displaystyle X}$ и в разных подмножествах в ${ displaystyle Y}$
${ displaystyle d}$ , количество пар элементов в ${ displaystyle S}$ которые находятся в разных подмножествах в ${ displaystyle X}$ и в том же подмножестве в ${ displaystyle Y}$

Индекс Рэнда - ${ displaystyle R}$ - определяется как

{ displaystyle R = { frac {a + b} {a + b + c + d}} = { frac {a + b} {n choose 2}}}

Интуитивно ${ displaystyle a + b}$ можно рассматривать как количество соглашений между ${ displaystyle X}$ и ${ displaystyle Y}$ и ${ displaystyle c + d}$ как количество разногласий между ${ displaystyle X}$ и ${ displaystyle Y}$ .

Скорректированный индекс Rand

Скорректированный индекс Rand - это версия индекса Rand с поправкой на случайность.^[82]^[83]^[84] Хотя индекс Rand может давать значение только от 0 до +1, скорректированный индекс Rand может давать отрицательные значения, если индекс меньше ожидаемого.^[85]

Таблица непредвиденных обстоятельств

Учитывая набор ${ displaystyle S}$ из ${ displaystyle n}$ элементы и две группы или разделы (например кластеризации) этих точек, а именно ${ Displaystyle X = {X_ {1}, X_ {2}, ldots, X_ {r} }}$ и ${ Displaystyle Y = {Y_ {1}, Y_ {2}, ldots, Y_ {s} }}$ , перекрытие между ${ displaystyle X}$ и ${ displaystyle Y}$ можно обобщить в таблице непредвиденных обстоятельств ${ Displaystyle влево [п_ {ij} вправо]}$ где каждая запись ${ displaystyle n_ {ij}}$ обозначает количество общих объектов между ${ displaystyle X_ {i}}$ и ${ displaystyle Y_ {j}}$ : ${ displaystyle n_ {ij} = | X_ {i} cap Y_ {j} |}$ .

X Y	${ displaystyle Y_ {1}}$	${ displaystyle Y_ {2}}$	${ displaystyle ldots}$	${ displaystyle Y_ {s}}$	Суммы
${ displaystyle X_ {1}}$	${ displaystyle n_ {11}}$	${ displaystyle n_ {12}}$	${ displaystyle ldots}$	${ displaystyle n_ {1s}}$	${ displaystyle a_ {1}}$
${ displaystyle X_ {2}}$	${ displaystyle n_ {21}}$	${ displaystyle n_ {22}}$	${ displaystyle ldots}$	${ displaystyle n_ {2s}}$	${ displaystyle a_ {2}}$
${ displaystyle vdots}$	${ displaystyle vdots}$	${ displaystyle vdots}$	${ displaystyle ddots}$	${ displaystyle vdots}$	${ displaystyle vdots}$
${ displaystyle X_ {r}}$	${ displaystyle n_ {r1}}$	${ displaystyle n_ {r2}}$	${ displaystyle ldots}$	${ displaystyle n_ {rs}}$	${ displaystyle a_ {r}}$
Суммы	${ displaystyle b_ {1}}$	${ displaystyle b_ {2}}$	${ displaystyle ldots}$	${ displaystyle b_ {s}}$

Определение

Скорректированная форма Индекса Рэнда, Скорректированный Индекс Рэнда,

{ displaystyle { text {AdjustedIndex}} = { frac {{ text {Index}} - { text {ExpectedIndex}}} {{ text {MaxIndex}} - { text {ExpectedIndex}}}}, }

более конкретно

{ displaystyle { text {ARI}} = { frac { sum _ {ij} { binom {n_ {ij}} {2}} - left. left [ sum _ {i} { binom {a_ {i}} {2}} sum _ {j} { binom {b_ {j}} {2}} right] right / { binom {n} {2}}} {{ frac {1} {2}} left [ sum _ {i} { binom {a_ {i}} {2}} + sum _ {j} { binom {b_ {j}} {2}} right] - left. left [ sum _ {i} { binom {a_ {i}} {2}} sum _ {j} { binom {b_ {j}} {2}} right] right / { binom {n} {2}}}}}

куда ${ displaystyle n_ {ij}, a_ {i}, b_ {j}}$ - значения из таблицы непредвиденных обстоятельств.

Поскольку знаменатель - это общее количество пар, индекс Rand представляет собой частота появления соглашений по всем парам, или вероятность того, что ${ displaystyle X}$ и ${ displaystyle Y}$ договорится о случайно выбранной паре.

Оценка показателей

Разные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, в частности, в социологической литературе.

Если кто-то хочет просто сделать порядковый сравнения между образцами (один образец более или менее разнообразен, чем другой), выбор IQV относительно менее важен, поскольку они часто дают одинаковый порядок.

Если данные являются порядковыми, метод, который может быть использован при сравнении образцов, ОРДАНОВА.

В некоторых случаях полезно не стандартизировать индекс для запуска от 0 до 1, независимо от количества категорий или выборок (Уилкокс 1973, pp. 338), но обычно это стандартизируется.

Смотрите также

Примечания

^ Это может произойти только в том случае, если количество дел кратно количеству категорий.
^ Freemen LC (1965) Элементарная прикладная статистика. Нью-Йорк: Джон Уайли и сыновья, стр. 40–43.
^ Кендал М.К., Стюарт А. (1958) Продвинутая теория статистики. Издательство Hafner с. 46
^ Мюллер JE, Schuessler KP (1961) Статистическое мышление в социологии. Бостон: Компания Houghton Mifflin. стр. 177–179
^ Уилкокс (1967), п.^{[страница нужна ]}.
^ Кайзер Х.Ф. (1968) "Оценка качества законодательного распределения населения". Обзор американской политической науки 62 (1) 208
^ Джоэл Гомбин (18 августа 2015 г.). "qualvar: Первоначальный выпуск (Версия v0.1)". Зенодо. Дои:10.5281 / zenodo.28341.
^ Гиббс и Постон младший (1975).
^ Либерсон (1969), п. 851.
^ IQV в xycoon
^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем набора текста: приложение индекса разнообразия Симпсона». J Clin Microbiol. 26 (11): 2465–2466.
^ Фридман WF (1925) Частота совпадений и их применение в криптоанализе. Технический документ. Кабинет начальника связи. Типография правительства США.
^ Джини К.В. (1912) Изменчивость и изменчивость, вклад в изучение статистических распределений и отношений. Studi Economico-Giuricici della R. Universita de Cagliari
^ Симпсон, EH (1949). «Измерение разнообразия». Природа. 163 (4148): 688. Дои:10.1038 / 163688a0.
^ Бачи Р. (1956) Статистический анализ возрождения иврита в Израиле. В: Bachi R (ed) Scripta Hierosolymitana, Vol III, Jerusalem: Magnus press, стр. 179–247.
^ Мюллер JH, Schuessler KF (1961) Статистическое мышление в социологии. Бостон: Хоутон Миффлин
^ Гиббс, JP; Мартин, WT (1962). «Урбанизация, технологии и разделение труда: международные образцы». Американский социологический обзор. 27 (5): 667–677. Дои:10.2307/2089624. JSTOR 2089624.
^ Либерсон (1969), п.^{[страница нужна ]}.
^ Блау П. (1977) Неравенство и неоднородность. Свободная пресса, Нью-Йорк
^ Перри М., Кадер Г. (2005) Вариация как несходство. Статистика обучения 27 (2) 58–60
^ Гринберг, Дж. Х (1956). «Измерение языкового разнообразия». Язык. 32 (1): 109–115. Дои:10.2307/410659. JSTOR 410659.
^ Лотар Э.Х. (1978) докторская диссертация.^{[требуется полная цитата ]}
^ Бергер, WH; Паркер, Флорида (1970). «Разнообразие планктонных фораменифер в глубоководных отложениях». Наука. 168 (3937): 1345–1347. Дои:10.1126 / science.168.3937.1345. PMID 17731043.
^ ^а ^б Хилл, М. О. (1973). «Разнообразие и ровность: объединяющая нотация и ее последствия». Экология. 54 (2): 427–431. Дои:10.2307/1934352. JSTOR 1934352.
^ Маргалеф Р. (1958) Временная последовательность и пространственная неоднородность фитопланктона. В кн .: Перспективы морской биологии. Buzzati-Traverso (редактор) Univ Calif Press, Беркли, стр. 323–347
^ Menhinick, EF (1964). «Сравнение некоторых индексов видового разнообразия применительно к выборкам полевых насекомых». Экология. 45 (4): 859–861. Дои:10.2307/1934933. JSTOR 1934933.
^ Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
^ Guiraud P (1954) Les caractères statistiques du лексика. Прессы Universitaires de France, Париж
^ Panas E (2001) The Generalized Torquist: Спецификация и оценка новой функции размера словаря и текста. Дж. Куант Линг 8 (3) 233–252
^ Кемптон, РА; Тейлор, Л. Р. (1976). «Модели и статистика видового разнообразия». Природа. 262 (5571): 818–820. Дои:10.1038 / 262818a0.
^ Hutcheson K (1970) Тест для сравнения разнообразия, основанный на формуле Шеннона. Дж. Тео Биол 29: 151–154
^ Фишер Р. А., Корбет А., Уильямс С. Б. (1943) Отношение между количеством видов и количеством особей в случайной выборке из популяции животных. Экология животных 12: 42–58
^ Анскомб (1950) Теория выборки распределений отрицательных биномиальных и логарифмических рядов. Биометрика 37: 358–382
^ Сильный, WL (2002). «Оценка неравномерности обилия видов внутри и между растительными сообществами». Общественная экология. 3 (2): 237–246. Дои:10.1556 / comec.3.2002.2.9.
^ Камарго Дж. А. (1993) Должно ли доминирование возрастать с увеличением числа подчиненных видов в конкурентных взаимодействиях? J. Theor Biol 161 537–542
^ Смит, Уилсон (1996)^{[требуется полная цитата ]}
^ Булла, L (1994). «Индекс ровности и связанная с ним мера разнообразия». Ойкос. 70 (1): 167–171. Дои:10.2307/3545713. JSTOR 3545713.
^ Хорн, HS (1966). «Измерение« перекрытия »в сравнительных экологических исследованиях». Am Nat. 100 (914): 419–423. Дои:10.1086/282436.
^ Сигел, Эндрю Ф (2006) "Кривые разрежения". Энциклопедия статистических наук 10.1002 / 0471667196.ess2195.pub2.
^ Caswell H (1976) Структура сообщества: анализ нейтральной модели. Ecol Monogr 46: 327–354
^ Poulin, R; Муийо, Д. (2003). «Специализация паразитов с филогенетической точки зрения: новый индекс специфичности хозяина». Паразитология. 126 (5): 473–480. CiteSeerX 10.1.1.574.7432. Дои:10.1017 / s0031182003002993.
^ Theil H (1972) Статистический анализ декомпозиции. Амстердам: Издательская компания Северной Голландии>
^ Дункан О.Д., Дункан Б. (1955) Методологический анализ индексов сегрегации. Am Sociol Review, 20: 210–217.
^ Горард С., Тейлор С. (2002b) Что такое сегрегация? Сравнение мер с точки зрения «сильной» и «слабой» композиционной инвариантности. Социология, 36 (4), 875–895.
^ Massey, DS; Дентон, Н. А. (1988). «Размеры жилищной сегрегации». Социальные силы. 67 (2): 281–315. Дои:10.1093 / sf / 67.2.281.
^ Hutchens RM (2004) Одна мера сегрегации. Международный экономический обзор 45: 555–578
^ Либерсон С (1981). «Асимметричный подход к сегрегации». В Персик C, Робинсон V, Смит S (ред.). Этническая сегрегация в городах. Лондон: Крум Хелм. С. 61–82.
^ Белл, W (1954). «Вероятностная модель для измерения экологической сегрегации». Социальные силы. 32 (4): 357–364. Дои:10.2307/2574118. JSTOR 2574118.
^ Ochiai A (1957) Зоогеографические исследования солеидных рыб, обнаруженных в Японии и соседних регионах. Bull Jpn Soc Sci Fish 22: 526–530
^ Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Bulletin International de l'Académie Polonaise des Sciences et des Lettres, Classe des Sciences
^ Юле Г.У. (1900) Об ассоциации атрибутов в статистике. Филос Транс Рой Соц
^ Lienert GA и Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418
^ Барони-Урбани, C; Buser, MW (1976). «подобие двоичных данных». Систематическая биология. 25 (3): 251–259. Дои:10.2307/2412493. JSTOR 2412493.
^ Forbes SA (1907) О местном распространении некоторых рыб Иллинойса: очерк статистической экологии. Бюллетень лаборатории естествознания штата Иллинойс 7: 272–303
^ Алрой Дж. (2015) Новый поворот в очень старом бинарном коэффициенте подобия. Экология 96 (2) 575-586
^ Карл Р. Хаусман и Дуглас Р. Андерсон (2012). Беседы о Пирсе: реальность и идеалы. Издательство Фордхэмского университета. п. 221. ISBN 9780823234677.
^ Lance, G.N .; Уильямс, В. Т. (1966). «Компьютерные программы иерархической политетической классификации (« анализ подобия »)». Компьютерный журнал. 9 (1): 60–64. Дои:10.1093 / comjnl / 9.1.60.
^ Lance, G. N .; Уильямс, В. Т. (1967). "Программы классификации смешанных данных I.) Агломеративные системы". Австралийский компьютерный журнал: 15–20.
^ Жаккар П. (1902) Флора распределения. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38: 67-130
^ Archer AW и Maples CG (1989) Ответ выбранных биномиальных коэффициентов на различные степени разреженности матриц и на матрицы с известными взаимосвязями данных. Математическая геология 21: 741–753
^ ^а ^б Морисита М (1959) Измерение дисперсии и анализ схем распределения. Мемуары факультета естественных наук Университета Кюсю. Серия E. Biol 2: 215–235.
^ Ллойд М. (1967) Средняя скученность. J Anim Ecol 36: 1–30
^ Педиго Л.П. и Бунтин Г.Д. (1994) Справочник по методам отбора проб членистоногих в сельском хозяйстве. CRC Бока-Ратон, Флорида
^ Морисита М (1959) Измерение дисперсии и анализ схем распределения. Воспоминания факультета естественных наук Университета Кюсю, серия E «Биология». 2: 215–235
^ Хорн, HS (1966). «Измерение« перекрытия »в сравнительных экологических исследованиях». Американский натуралист. 100 (914): 419–424. Дои:10.1086/282436.
^ Смит-Гилл SJ (1975). «Цитофизиологические основы деструктивных пигментных паттернов у леопардовой лягушки. Рана пипиенс. II. Характерные особенности клеток дикого типа и мутантных клеток ". Дж. Морфол. 146: 35–54.
^ Пит (1974) Измерения видового разнообразия. Annu Rev Ecol Syst 5: 285–307
^ Тверски, Амос (1977). «Особенности сходства» (PDF). Психологический обзор. 84 (4): 327–352. Дои:10.1037 / 0033-295x.84.4.327.
^ Хименес С, Бесерра С, Гельбух А SOFTCARDINALITY-CORE: Улучшение перекрытия текста с распределительными мерами семантического текстового сходства. Вторая совместная конференция по лексической и вычислительной семантике (* SEM), Том 1: Труды основной конференции и общая задача: семантическое текстовое сходство, стр. 194-201. 7–8 июня 2013 г., Атланта, Джорджия, США
^ Моностори К., Финкель Р., Заславский А., Ходаш Г. и Патке М. (2002) Сравнение методов обнаружения перекрытия. В: Материалы Международной конференции по вычислительным наукам 2002 г. Конспект лекций по информатике 2329: 51-60
^ Бернштейн Й. и Зобель Дж. (2004) Масштабируемая система для идентификации сопроизводных документов. В: Материалы 11-й Международной конференции по обработке строк и поиску информации (SPIRE) 3246: 55-67
^ Превости, А; Рибо, G; Серра, L; Агуаде, М; Balanya, J; Монкл, М; Местрес, Ф (1988). "Колонизация Америки Drosophila subobscura: эксперимент в естественных популяциях, подтверждающий адаптивную роль полиморфизма хромосомной инверсии ». Proc Natl Acad Sci USA. 85 (15): 5597–5600. Дои:10.1073 / пнас.85.15.5597. ЧВК 281806. PMID 16593967.
^ Санчес, А; Ocana, J; Utzetb, F; Серрак, Л. (2003). «Сравнение генетических дистанций Превости». Журнал статистического планирования и вывода. 109 (1–2): 43–65. Дои:10.1016 / s0378-3758 (02) 00297-5.
^ ХаКоэн-Кернер Y, Тайеб А. и Бен-Дрор Н. (2010) Обнаружение простого плагиата в статьях по информатике. В: Материалы 23-й Международной конференции по компьютерной лингвистике, стр. 421-429.
^ Лейк Р. (1966) Мера порядкового консенсуса. Тихоокеанский социологический обзор 9 (2): 85–90.
^ Manfredo M, Vaske, JJ, Teel TL (2003) Индекс потенциала конфликта: графический подход к практическому значению исследования человеческих измерений. Человеческие аспекты дикой природы 8: 219–228
^ ^а ^б ^c Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Расширение и дальнейшая проверка индекса потенциала конфликта. Науки о досуге 32: 240–254
^ Van der Eijk C (2001) Соглашение об измерениях в упорядоченных рейтинговых шкалах. Качество и количество 35 (3): 325–341
^ Фон Мизес R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Ревю де ла Факультет наук Стамбульского университета, NS 4: 145−163
^ Севастьянов Б.А. (1972) Предельный закон Пуассона для схемы сумм зависимых случайных величин. (пер. С. М. Рудольфер) Теория вероятностей и ее приложения, 17: 695-699
^ Hoaglin DC, Mosteller, F и Tukey, JW (1985) Изучение таблиц данных, тенденций и форм, Нью-Йорк: Джон Вили
^ ^а ^б В. М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации. 66 (336): 846–850. arXiv:1704.01036. Дои:10.2307/2284239. JSTOR 2284239.
^ Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение перегородок». Журнал классификации. 2 (1): 193–218. Дои:10.1007 / BF01908075.
^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Теоретико-информационные меры для сравнения кластеризации: нужна ли поправка на случайность?» (PDF). ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению. ACM. С. 1073–1080. Архивировано из оригинал (PDF) 25 марта 2012 г.PDF.
^ Вагнер, Силке; Вагнер, Доротея (12 января 2007 г.). «Сравнение кластеров - обзор» (PDF). Получено 14 февраля 2018.