Качественная вариация - Qualitative variation

An индекс качественной вариации (IQV) является мерой статистическая дисперсия в номинальные распределения. Их существует множество, но они относительно мало изучены в статистической литературе. Самый простой - это коэффициент вариации, а более сложные индексы включают информационная энтропия.

Характеристики

Для анализа номинальных данных используются несколько типов индексов. Некоторые из них являются стандартной статистикой, которые используются в других местах - классифицировать, стандартное отклонение, отклонение, среднее отклонение, коэффициент вариации, среднее абсолютное отклонение, межквартильный размах и квартирное отклонение.

В дополнение к этим некоторые статистические данные были разработаны с учетом номинальных данных. Ряд суммировал и разработал Уилкокс (Уилкокс 1967 ), (Уилкокс 1973 ), который требует выполнения следующих свойств стандартизации:

  • Вариация варьируется от 0 до 1.
  • Вариант равен 0 тогда и только тогда, когда все случаи относятся к одной категории.
  • Вариант равен 1 тогда и только тогда, когда случаи делятся поровну по всей категории.[1]

В частности, значение этих стандартизованных показателей не зависит от количества категорий или количества выборок.

Для любого индекса, чем ближе к равномерному распределению, чем больше дисперсия, и чем больше разница в частотах по категориям, тем меньше дисперсия.

Индексы качественной изменчивости тогда аналогичны информационная энтропия, который сводится к минимуму, когда все наблюдения относятся к одной категории, и максимизируется при равномерном распределении. Действительно, информационная энтропия может использоваться как показатель качественной вариации.

Одна характеристика конкретного индекса качественной вариации (IQV) - ​​это отношение наблюдаемых различий к максимальным различиям.

Индексы Уилкокса

Уилкокс приводит ряд формул для различных показателей QV (Уилкокс 1973 ), первый, который он обозначает DM для «отклонения от режима», является стандартизированной формой коэффициент вариации, и аналогичен отклонение как отклонение от среднего.

ModVR

Формула для изменения режима (ModVR) выводится следующим образом:

куда жм модальная частота, K количество категорий и жя это частота яth группа.

Это можно упростить до

куда N - общий размер выборки.

Индекс Фримена (или коэффициент вариации) равен[2]

Это связано с M следующее:

ModVR определяется как

куда v индекс Фримена.

Низкие значения ModVR соответствуют небольшому количеству вариации, а высокие значения - большему количеству вариации.

Когда K большой, ModVR примерно равен индексу Фрименаv.

RanVR

Это основано на диапазоне вокруг режима. Он определяется как

куда жм - модальная частота и жл самая низкая частота.

AvDev

Это аналог среднего отклонения. Он определяется как среднее арифметическое абсолютных отличий каждого значения от среднего.

MNDif

Это аналог средней разности - среднее значение разностей всех возможных пар переменных значений, взятых независимо от знака. Средняя разница отличается от среднего и стандартного отклонения, потому что она зависит от разброса различных значений между собой, а не от отклонений от некоторого центрального значения.[3]

куда жя и жj являются яth и jth частоты соответственно.

MNDif - это Коэффициент Джини применительно к качественным данным.

VarNC

Это аналог дисперсии.

Это тот же индекс, что и индекс качественной изменчивости Мюллера и Шусслера.[4] и Гиббса M2 индекс.

Распространяется как чи квадрат переменная с K – 1 степени свободы.[5]

StDev

Уилсон предложил две версии этой статистики.

Первый основан на AvDev.

Второй основан на MNDif

HRel

Этот индекс был первоначально разработан Клод Шеннон для использования при указании свойств каналов связи.

куда пя = жя / N.

Это эквивалентно информационная энтропия разделенный на и полезен для сравнения относительной вариации между таблицами частот разных размеров.

Индекс B

Уилкокс адаптировал предложение Кайзера[6] на основе среднего геометрического и создал B ' индекс. В B индекс определяется как

Пакеты R

Некоторые из этих индексов были реализованы на языке R.[7]

Индексы Гибба и родственные формулы

Гиббс и Постон младший (1975) предложил шесть индексов.[8]

M1

Нестандартизованный индекс (M1) (Гиббс и Постон-младший, 1975, п. 471) является

куда K количество категорий и это доля наблюдений, попадающих в данную категорию я.

M1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории,[9] так что эта формула для IQV представляет собой стандартизированную вероятность попадания случайной пары в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он использовался.

M2

Второй индекс - это M2[10] (Гиббс и Постон-младший, 1975, п. 472) это:

куда K количество категорий и это доля наблюдений, попадающих в данную категорию я. Фактор предназначен для стандартизации.

M1 и M2 можно интерпретировать с точки зрения дисперсии полиномиальное распределение (Swanson 1976 г. ) (там называется «расширенной биномиальной моделью»). M1 - дисперсия полиномиального распределения и M2 - отношение дисперсии полиномиального распределения к дисперсии биномиальное распределение.

M4

В M4 индекс

куда м это среднее.

M6

Формула для M6 это

·куда K количество категорий, Икся это количество точек данных в яth категория N - общее количество точек данных, || это абсолютная величина (модуль) и

Эту формулу можно упростить

куда пя - доля образца в яth категория.

На практике M1 и M6, как правило, сильно коррелированы, что препятствует их совместному использованию.

Связанные индексы

Сумма

также нашла применение. Это известно как индекс Симпсона в экология и как Индекс Херфиндаля или индекс Херфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен в микробиологии как индекс Хантера-Гастона.[11]

В лингвистике и криптоанализ эта сумма известна как частота повторения. В случайность совпадения (IC) является беспристрастным оценщик этой статистики[12]

куда жя это счет яth графема в тексте и п - общее количество графем в тексте.

M1

В M1 статистика, определенная выше, предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини,[13] Мера разнообразия Симпсона,[14] Индекс лингвистической однородности Бачи,[15] Индекс качественной изменчивости Мюллера и Шесслера,[16] Индекс отраслевой диверсификации Гиббса и Мартина,[17] Индекс Либерсона.[18] и индекс Блау по социологии, психологии и исследованиям в области менеджмента.[19] Формулировка всех этих показателей идентична.

Симпсона D определяется как

куда п - общий размер выборки и пя количество элементов в ith категория.

Для больших п у нас есть

Другой статистический показатель, который был предложен, - это коэффициент несхожести, который находится в диапазоне от 0 до 1.[20]

куда п размер выборки и c(Икс,у) = 1, если Икс и у одинаковы и 0 в противном случае.

Для больших п у нас есть

куда K это количество категорий.

Другая связанная статистика - квадратичная энтропия

что само по себе связано с Индекс Джини.

M2

Одноязычный невзвешенный индекс языкового разнообразия Гринберга[21] это M2 статистики, определенные выше.

M7

Другой индекс - M7 - создан на базе M4 указатель Гиббс и Постон младший (1975)[22]

куда

и

куда K количество категорий, L количество подтипов, Оij и Eij - количество наблюдаемых и ожидаемых соответственно подтипа j в яth категория пя это число в яth категория и пj доля подтипа j в полном образце.

Примечание. Этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов мужчин и женщин.

Другие индексы единичной выборки

Эти индексы представляют собой сводную статистику вариаций внутри выборки.

Индекс Бергера – Паркера

В Индекс Бергера – Паркера равно максимуму значение в наборе данных, то есть пропорциональная численность наиболее распространенного типа.[23] Это соответствует взвешенному обобщенному среднему значению ценности, когда q стремится к бесконечности и, следовательно, равняется обратной величине истинного разнообразия бесконечного порядка (1 /D).

Индекс разнообразия Бриллюэна

Этот индекс строго применим только ко всей совокупности, а не к конечным выборкам. Он определяется как

куда N - общее количество особей в популяции, пя количество особей в яth категория и N! это факториал из N. Индекс ровности Бриллюэна определяется как

куда яB(Максимум) это максимальное значение яB.

Числа разнообразия Хилла

Хилл предложил семейство чисел разнообразия[24]

Для заданных значений a можно вычислить несколько других индексов.

  • а = 0: Nа = видовое богатство
  • а = 1: Nа = Индекс Шеннона
  • а = 2: Nа = 1 / индекс Симпсона (без поправки на малую выборку)
  • а = 3: Nа = 1 / индекс Бергера – Паркера

Хилл также предложил семейство мер ровности

куда а > б.

Hill's E4 является

Hill's E5 является

Индекс Маргалефа

куда S - количество типов данных в образце и N - общий размер выборки.[25]

Индекс Менхиника

куда S - количество типов данных в образце и N - общий размер выборки.[26]

В лингвистика этот индекс идентичен индексу Курашкевича (индекс Гуяра), где S количество различных слов (типов) и N - общее количество слов (токенов) в исследуемом тексте.[27][28] Этот индекс может быть получен как частный случай обобщенной функции Торквиста.[29]

Q статистика

Это статистика, изобретенная Кемптоном и Тейлором.[30] и включает квартили выборки. Он определяется как

куда р1 и р1 - квартили 25% и 75% соответственно на кумулятивной кривой видов, пj количество видов в jth категория пRi - количество видов в классе, где ря падает (я = 1 или 2).

Индекс Шеннона – Винера

Это взято из теории информации

куда N - общее количество в выборке и пя пропорция в яth категория.

В экологии, где обычно используется этот индекс, ЧАС обычно находится в пределах от 1,5 до 3,5 и редко превышает 4,0.

Приблизительная формула стандартного отклонения (SD) ЧАС является

куда пя это доля, составляющая яth категория и N это сумма в выборке.

Более точное приблизительное значение дисперсии ЧАС(var (ЧАС)) дан кем-то[31]

куда N размер выборки и K это количество категорий.

Связанный индекс - Pielou J определяется как

Одна из трудностей с этим индексом заключается в том, что S для конечной выборки неизвестно. На практике S обычно устанавливается на максимум, присутствующий в любой категории в выборке.

Энтропия Реньи

В Энтропия Реньи является обобщением энтропии Шеннона на другие значения q чем единство. Это может быть выражено:

что равно

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q.

Значение также известен как число Хилла.[24]

D и E Макинтоша

куда N - общий размер выборки и пя это число в яth категория.

куда K это количество категорий.

Альфа Фишера

Это был первый индекс разнообразия.[32]

куда K количество категорий и N - количество точек данных в выборке. Фишера α должен быть оценен численно на основе данных.

Ожидаемое количество особей в рth категория, в которой категории были увеличены в размере,

куда Икс является эмпирическим параметром, лежащим между 0 и 1. Хотя X лучше всего оценивается численно, приблизительное значение можно получить, решив следующие два уравнения

куда K количество категорий и N - общий размер выборки.

Дисперсия α примерно[33]

Индекс Стронга

Этот индекс (Dш) - расстояние между Кривая Лоренца распространения видов и линии 45 градусов. Он тесно связан с коэффициентом Джини.[34]

В символах это

где max () - максимальное значение, принятое за N точки данных, K количество категорий (или видов) в наборе данных и cя это совокупная сумма, включая яth категория.

E Симпсона

Это связано с синдромом Симпсона. D и определяется как

куда D Симпсона D и K - количество категорий в выборке.

Индексы Смита и Уилсона

Смит и Уилсон предложили ряд индексов, основанных на D.

куда D Симпсона D и K это количество категорий.

Индекс Хейпа

куда ЧАС энтропия Шеннона и K это количество категорий.

Этот индекс тесно связан с индексом Шелдона, который

куда ЧАС энтропия Шеннона и K это количество категорий.

Индекс Камарго

Этот индекс был создан Камарго в 1993 году.[35]

куда K количество категорий и пя пропорция в яth категория.

Смит и Уилсон B

Этот индекс был предложен Смитом и Уилсоном в 1996 году.[36]

куда θ - наклон кривой логарифма (содержания) ранга.

Индекс Ни, Харви и Котгрива

Это наклон кривой логарифма (обилия) ранга.

Буллы E

Есть две версии этого индекса - одна для непрерывных распределений (Ec), а другой - для дискретных (Ed).[37]

куда

- индекс Шенера – Чеканоски, K количество категорий и N размер выборки.

Индекс теории информации Хорна

Этот индекс (рik) основан на энтропии Шеннона.[38] Он определяется как

куда

В этих уравнениях Иксij и ИкскДж сколько раз jth тип данных отображается в яth или же kth образец соответственно.

Индекс разреженности

В разреженной выборке случайная подвыборка п в выбранном из общего числа N Предметы. В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Позволять быть количеством групп, все еще присутствующих в подвыборке п Предметы. меньше чем K количество категорий, когда хотя бы одна группа отсутствует в этой подвыборке.

В кривая разрежения, определяется как:

Обратите внимание, что 0 ≤ ж(п) ≤ K.

Более того,

Несмотря на то, что они определены при дискретных значениях п, эти кривые чаще всего отображаются как непрерывные функции.[39]

Этот индекс обсуждается далее в Редкость (экология).

Caswell's V

Это z статистика типа, основанная на энтропии Шеннона.[40]

куда ЧАС энтропия Шеннона, E(ЧАС) - ожидаемая энтропия Шеннона для нейтральной модели распределения и SD(ЧАС) - стандартное отклонение энтропии. Стандартное отклонение рассчитывается по формуле, полученной Пиелу

куда пя это доля, составляющая яth категория и N это сумма в выборке.

Индекс Ллойда и Геларди

Это

куда K количество категорий и K ' - количество категорий согласно модели сломанной палки Макартура, дающих наблюдаемое разнообразие.

Средний индекс таксономической отличимости

Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами.[41] Он включает информацию о филогенетических отношениях между видами хозяев.

куда s количество видов хозяев, используемых паразитом, и ωij таксономическая различие между видами хозяев я и j.

Индекс качественной вариации

Было предложено несколько индексов с таким названием.

Один из них

куда K количество категорий и пя - доля выборки, которая лежит в ith категория.

Theil’s H

Этот индекс также известен как индекс многогрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году.[42] Индекс представляет собой средневзвешенное значение энтропии выборки.

Позволять

и

куда пя это пропорция типа я в аth образец, р общее количество выборок, пя это размер яth образец, N - размер совокупности, из которой были получены образцы, и E - энтропия населения.

Индексы для сравнения двух или более типов данных в одной выборке

Некоторые из этих индексов были разработаны для документирования того, в какой степени различные интересующие типы данных могут сосуществовать в пределах одной географической области.

Индекс несходства

Позволять А и B быть двумя типами данных. Тогда показатель несходства равен

куда

Ая это номер типа данных А на образце сайта я, Bя это номер типа данных B на образце сайта я, K - количество выбранных сайтов и || - абсолютное значение.

Этот индекс, вероятно, более известен как индекс несходства (D).[43] Он тесно связан с индексом Джини.

Этот индекс смещен, поскольку его математическое ожидание при равномерном распределении> 0.

Модификация этого индекса была предложена Горардом и Тейлором.[44] Их индекс (GT) равен

Индекс сегрегации

Индекс сегрегации (ЯВЛЯЕТСЯ)[45] является

куда

и K это количество единиц, Ая и тя это номер типа данных А в единице я и общее количество всех типов данных в единице я.

Индекс квадратного корня Хатчена

Этот индекс (ЧАС) определяется как[46]

куда пя - доля выборки, состоящая из яth варьироваться.

Индекс изоляции Либерсона

Этот индекс ( Lху ) был изобретен Либерсоном в 1981 году.[47]

куда Икся и Yя представляют интерес переменные на яth сайт, K количество проверенных сайтов и Иксмалыш общее количество разновидностей типа Икс В исследовании.

Индекс Белла

Этот индекс определяется как[48]

куда пИкс - доля выборки, состоящая из переменных типа Икс и

куда NИкс это общее количество вариантов типа Икс В исследовании, K количество образцов в исследовании и Икся и пя количество вариаций и доля вариаций типа Икс соответственно в яth образец.

Индекс изоляции

Индекс изоляции

куда K количество единиц в исследовании, Ая и тя количество единиц типа А и количество всех единиц в яth образец.

Также был предложен модифицированный индекс изоляции.

В MII лежит между 0 и 1.

Индекс сегрегации Горарда

Этот индекс (GS) определяется как

куда

и Ая и тя количество элементов данных типа А и общее количество элементов в яth образец.

Индекс воздействия

Этот индекс определяется как

куда

и Ая и Bя количество типов А и B в яth категория и тя это общее количество точек данных в яth категория.

Индекс Очая

Это двоичная форма индекса косинуса.[49] Он используется для сравнения данных о наличии / отсутствии двух типов данных (здесь А и B). Он определяется как

куда а - количество единиц выборки, где оба А и B найдены, б - количество единиц выборки, где А но нет B происходит и c это количество единиц выборки, где тип B присутствует, но не тип А.

Коэффициент Кульчинского

Этот коэффициент был изобретен Станислав Кульчинский в 1927 г.[50] и является индексом связи между двумя типами (здесь А и B). Его значение варьируется от 0 до 1. Он определяется как

куда а это количество единиц выборки, где тип А и введите B присутствуют, б это количество единиц выборки, где тип А но не тип B присутствует и c это количество единиц выборки, где тип B присутствует, но не тип А.

Q Yule's

Этот индекс был изобретен Юлом в 1900 году.[51] Это касается ассоциации двух разных типов (здесь А и B). Он определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. Q варьируется от -1 до +1. В порядковом регистре Q известен как Гудман-Крускал γ.

Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали прибавить +1 к а, б, c и d.[52]

Yule's Y

Этот индекс определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Барони – Урбани – Баззера

Этот индекс был изобретен Барони-Урбани и Базером в 1976 году.[53] Его значение варьируется от 0 до 1. Он определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Когда d = 0, этот индекс идентичен индексу Жаккара.

Коэффициент Хаммана

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Роджерса – Танимото

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки

Коэффициент Сокаля – Снита

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Бинарное расстояние Сокаля

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Рассела – Рао

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Phi

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Сёргеля

Этот коэффициент определяется как

куда б это количество образцов, где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Симпсона

Этот коэффициент определяется как

куда б это количество образцов, где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А.

Коэффициент Денниса

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Форбса

Этот коэффициент был предложен Стивен Альфред Форбс в 1907 г.[54] Он определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Модификация этого коэффициента была предложена Alroy.[55]

Коэффициент простого соответствия

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Фоссума

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Стайла

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А, d это количество выборок, где ни один из типов А ни типа B присутствуют, п равно а + б + c + d и || - модуль (абсолютное значение) разности.

Коэффициент Майкла

Этот коэффициент определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Пирса

В 1884 г. Чарльз Пирс предложенный[56] следующий коэффициент

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют.

Коэффициент Хокина – Дотсона

В 1975 году Хокин и Дотсон предложили следующий коэффициент

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Коэффициент Бенини

В 1901 году Бенини предложил следующий коэффициент

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А. Мин (б, c) - минимум б и c.

Коэффициент Гилберта

Гилберт предложил следующий коэффициент

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d это количество выборок, где ни один из типов А ни типа B присутствуют. N размер выборки.

Индекс Джини

Индекс Джини

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А.

Модифицированный индекс Джини

Модифицированный индекс Джини

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А.

Индекс Куна

Кун предложил следующий коэффициент в 1965 г.

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B и c это количество образцов, где тип B присутствует, но не тип А. K - нормализующий параметр. N размер выборки.

Этот показатель также известен как коэффициент среднего арифметического.

Индекс Эйро

Эйро предложил следующий коэффициент в 1936 г.

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d - количество образцов, в которых оба А и B нет.

Расстояние Сергеля

Это определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d - количество образцов, в которых оба А и B нет. N размер выборки.

Индекс Танимото

Это определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А и d - количество образцов, в которых оба А и B нет. N размер выборки.

Индекс Пятецкого – Шапиро

Это определяется как

куда а это количество образцов, где типы А и B оба присутствуют, б это где тип А присутствует, но не тип B, c это количество образцов, где тип B присутствует, но не тип А.

Индексы для сравнения двух или более образцов

Количественный индекс Чекановского

Это также известно как Индекс Брея – Кертиса, Индекс Шенера, индекс наименьшего общего процента, индекс сродства или пропорционального сходства. Это связано с Индекс сходства Соренсена.

куда Икся и Иксj количество видов на участках я и j соответственно, и минимум берется по количеству общих видов между двумя участками.

Канберрская метрика

В Канберрское расстояние является взвешенной версией L1 метрика. Он был представлен введен в 1966 году.[57] и усовершенствован в 1967 г.[58] Дж. Н. Ланс и У. Т. Уильямс. Он используется для определения расстояния между двумя векторами - здесь два сайта с K категории на каждом сайте.

Канберрское расстояние d между векторами п и q в K-размерный настоящий векторное пространство является

куда пя и qя являются значениями яth категория двух векторов.

Коэффициент общности Соренсена

Это используется для измерения сходства между сообществами.

куда s1 и s2 - количество видов в сообществе 1 и 2 соответственно и c количество видов, общих для обоих районов.

Индекс Жаккара

Это мера сходства между двумя образцами:

куда А количество точек данных, совместно используемых двумя образцами и B и C - это точки данных, обнаруженные только в первом и втором образцах соответственно.

Этот индекс был изобретен в 1902 году швейцарским ботаником. Поль Жаккар.[59]

При случайном распределении ожидаемое значение J является[60]

Стандартная ошибка этого индекса в предположении случайного распределения составляет

куда N - общий размер выборки.

Индекс Дайса

Это мера сходства между двумя образцами:

куда А количество точек данных, совместно используемых двумя образцами и B и C - это точки данных, обнаруженные только в первом и втором образцах соответственно.

Коэффициент соответствия

Это мера сходства между двумя образцами:

куда N - количество точек данных в двух выборках и B и C - это точки данных, обнаруженные только в первом и втором образцах соответственно.

Индекс Мориситы

Индекс дисперсии Мориситы ( ям ) - это масштабированная вероятность того, что две точки, выбранные случайным образом из всей генеральной совокупности, находятся в одной выборке.[61] Более высокие значения указывают на более сгущенное распределение.

Альтернативная формулировка:

куда п - общий размер выборки, м выборочное среднее и Икс - отдельные значения с суммой по всей выборке. Он также равен

куда IMC - индекс скученности Ллойда.[62]

Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки.

Морисита показал, что статистика[61]

распределяется как переменная хи-квадрат с п - 1 степень свободы.

Альтернативный критерий значимости этого индекса был разработан для больших выборок.[63]

куда м общее среднее значение выборки, п - количество единиц выборки и z нормальное распределение абсцисса. Значимость проверяется путем сравнения значения z против ценностей нормальное распределение.

Индекс перекрытия Мориситы

Индекс перекрытия Моризиты используется для сравнения перекрытия между образцами.[64] Индекс основан на предположении, что увеличение размера выборки увеличит разнообразие, потому что в него будут включены разные среды обитания.

Икся это количество раз, когда виды я представлен в общем Икс от одного образца.
уя это количество раз, когда виды я представлен в общем Y из другого образца.
DИкс и Dу являются Индекс Симпсона ценности для Икс и у образцы соответственно.
S количество уникальных видов

CD = 0, если две выборки не пересекаются по видам, и CD = 1, если виды встречаются в одинаковых пропорциях в обоих образцах.

Horn's представила модификацию индекса[65]

Стандартизированный индекс Мориситы

Смит-Гилл разработал статистику на основе индекса Моризиты, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом[66]

Сначала определите индекс Мориситы ( яd ) обычным способом. Тогда пусть k быть количеством единиц, из которых была произведена выборка. Рассчитайте два критических значения

где χ2 значение хи-квадрат для п - 1 степень свободы с уровнем достоверности 97,5% и 2,5%.

Стандартизированный индекс ( яп ) затем вычисляется по одной из формул ниже

Когда яdMc > 1

Когда Mc > яd ≥ 1

Когда 1> яdMты

Когда 1> Mты > яd

яп колеблется от +1 до -1 с 95% доверительным интервалом ± 0,5. яп имеет значение 0, если шаблон случайный; если узор однородный, яп <0 и если шаблон показывает агрегацию, яп > 0.

Индексы ровности Пита

Эти индексы являются мерой равномерности между выборками.[67]

куда я это показатель разнообразия, яМаксимум и ямин - максимальное и минимальное значения я между сравниваемыми образцами.

Коэффициент Лёвингера

Лёвингер предложил коэффициент ЧАС определяется следующим образом:

куда пМаксимум и пмин - максимальная и минимальная пропорции в образце.

Индекс Тверски

Индекс Тверски [68] асимметричная мера, лежащая между 0 и 1.

Для образцов А и B индекс Тверски (S) является

Ценности α и β произвольны. Установка обоих α и β до 0,5 дает Коэффициент игральной кости. Установка обоих в 1 дает Коэффициент Танимото.

Предложен также симметричный вариант этого индекса.[69]

куда

Было предложено несколько подобных индексов.

Моностори и другие. предложил индекс симметричного подобия[70]

куда d(Икс) является некоторой мерой, производной отИкс.

Бернштейн и Зобель предложили индексы S2 и S3.[71]

S3 просто вдвое больше индекса SymmetricSimilarity. Оба связаны с коэффициентом Дайса.

Используемые показатели

Был предложен ряд показателей (расстояния между образцами).

Евклидово расстояние

Хотя он обычно используется в количественной работе, он также может использоваться в качественной работе. Это определяется как

куда djk это расстояние между Иксij и Иксik.

Расстояние Гауэра

Это определяется как

куда dя это расстояние между яth образцы и шя взвешивание дает яth расстояние.

Манхэттенское расстояние

Хотя он чаще используется в количественной работе, он также может использоваться в качественной работе. Это определяется как

куда djk это расстояние между Иксij и Иксik и || это абсолютная величина разницы между Иксij и Иксik.

Модифицированная версия манхэттенского расстояния может использоваться для нахождения нуля (корень ) из многочлен любой степень с помощью Метод Лилля.

Расстояние до Превости

Это связано с манхэттенским расстоянием. Его описал Превости. и другие. и использовался для сравнения различий между хромосомы.[72] Позволять п и Q быть двумя коллекциями р конечные вероятностные распределения. Пусть эти распределения имеют значения, которые делятся на k категории. Тогда расстояние DPQ является

куда р - количество дискретных распределений вероятностей в каждой популяции, kj это количество категорий в раздачах пj и Qj и пджи (соответственно qджи) - теоретическая вероятность категории я в распределении пj (Qj) в популяции п(Q).

Его статистические свойства были исследованы Санчесом. и другие.[73] кто рекомендовал процедуру начальной загрузки для оценки доверительных интервалов при тестировании различий между образцами.

Прочие показатели

Позволять

где min (Икс,у) - меньшее значение пары Икс и у.

потом

расстояние до Манхэттена,

расстояние Брея-Кертиса,

расстояние Жаккара (или Ружички) и

расстояние Кульчинского.

Сходства между текстами

HaCohen-Kerner et al. предложили различные метрики для сравнения двух и более текстов.[74]

Порядковые данные

Если категории не менее порядковый затем можно вычислить ряд других индексов.

Leik's D

Мера дисперсии Лейка (D) является одним из таких индексов.[75] Пусть будет K категории и пусть пя быть жя/N куда жя это число в яth category и пусть категории будут расположены в порядке возрастания. Позволять

куда аK. Позволять dа = cа если cа ≤ 0,5 и 1 -cа ≤ 0,5 в противном случае. потом

Нормализованная мера Герфиндаля

Это квадрат коэффициента вариации, деленный на N - 1 где N размер выборки.

куда м это среднее и s стандартное отклонение.

Индекс потенциального конфликта

Индекс потенциального конфликта (PCI) описывает соотношение оценок по обе стороны от центральной точки рейтинговой шкалы.[76] Для этого индекса требуются как минимум порядковые данные. Это соотношение часто отображается как пузырьковая диаграмма.

PCI использует порядковую шкалу с нечетным количеством рейтинговых баллов (-п к +п) с центром в 0. Он рассчитывается следующим образом

куда Z = 2п, | · | это абсолютная величина (модуль), р+ - количество ответов в положительной части шкалы, р - количество ответов в отрицательной части шкалы, Икс+ отзывы на положительной стороне шкалы, Икс это отзывы на отрицательной стороне шкалы и

Известно, что с PCI существуют теоретические трудности. PCI можно вычислить только для весов с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Также равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее зависит от количества возможных ответов или значений на шкале. Например, пяти-, семи- и девятибалльная шкала с равномерным распределением ответов дает PCI 0,60, 0,57 и 0,50 соответственно.

Первая из этих проблем является относительно незначительной, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или уменьшить) на одно значение, чтобы получить нечетное количество возможных ответов. При необходимости весы обычно можно обновить заново. Вторую проблему решить сложнее, и она может ограничить применимость PCI.

PCI был расширен[77]

куда K количество категорий, kя это число в яth категория dij это расстояние между яth и яth категории и δ - максимальное расстояние на шкале, умноженное на количество раз, которое оно может встречаться в образце. Для образца с четным числом точек данных

и для образца с нечетным количеством точек данных

куда N - количество точек данных в выборке и dМаксимум - максимальное расстояние между точками шкалы.

Васке и другие. предложить ряд возможных мер расстояния для использования с этим индексом.[77]

если знаки (+ или -) ря и рj отличаются. Если знаки такие же dij = 0.

куда п - произвольное действительное число> 0.

если знак (ря ) ≠ знак (ря ) и п - действительное число> 0. Если знаки совпадают, то dij = 0. м является D1, D2 или же D3.

Разница между D1 и D2 заключается в том, что первый не включает нейтралов на расстоянии, а второй - нет. Например, респонденты с оценками −2 и +1 будут иметь расстояние 2 меньше D1 и 3 под D2.

Использование силы (п) на расстояниях позволяет масштабировать экстремальные ответы. Эти различия можно выделить с помощью п > 1 или уменьшается с п < 1.

При моделировании с вариациями, взятыми из равномерного распределения, PCI2 имеет симметричное одномодальное распределение.[77] Хвосты его распределения больше, чем у нормального распределения.

Васке и другие. предложить использование t тест для сравнения значений PCI между выборками, если PCI приблизительно нормально распределены.

A ван дер Эйка

Этот показатель представляет собой средневзвешенное значение степени согласованности частотного распределения.[78] А колеблется от -1 (идеально бимодальность ) до +1 (идеально унимодальность ). Он определяется как

куда U - унимодальность распределения, S количество категорий, которые имеют ненулевые частоты и K общее количество категорий.

Значение U равно 1, если распределение имеет одну из трех следующих характеристик:

  • все ответы находятся в одной категории
  • ответы равномерно распределяются по всем категориям
  • ответы равномерно распределяются между двумя или более смежными категориями, при этом другие категории не имеют ответов

В других дистрибутивах данные должны быть разделены на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Значение для А для каждого слоя (Ая) вычисляется и определяется средневзвешенное значение для распределения. Веса (шя) для каждого уровня - это количество ответов в этом слое. В символах

А равномерное распределение имеет А = 0: когда все ответы попадают в одну категорию А = +1.

Одна теоретическая проблема с этим индексом заключается в том, что он предполагает, что интервалы расположены на одинаковом расстоянии. Это может ограничить его применимость.

Связанная статистика

Проблема дня рождения

Если есть п единиц в выборке, и они случайным образом распределяются по k категории (пk), это можно рассматривать как вариант проблема дня рождения.[79] Вероятность (п) всех категорий, имеющих только одну единицу,

Если c большой и п мал по сравнению с k2/3 тогда в хорошем приближении

Это приближение следует из точной формулы:

Оценка размера выборки

За п = 0,5 и п = 0,05 соответственно следующие оценки п может быть полезно

Этот анализ можно расширить на несколько категорий. За п = 0,5 и п 0,05 имеем соответственно

куда cя это размер яth категория. Этот анализ предполагает, что категории независимы.

Если данные упорядочены каким-либо образом, то хотя бы одно событие, происходящее в двух категориях, лежащих в j категории друг друга, чем вероятность 0,5 или 0,05, требует размера выборки (п) соответственно[80]

куда k это количество категорий.

Проблема дня рождения-смерти

Существует ли связь между днями рождения и днями смерти, было исследовано статистикой.[81]

куда d - количество дней в году между днем ​​рождения и днем ​​смерти.

Индекс Rand

В Индекс Rand используется для проверки того, согласны ли две или более системы классификации относительно набора данных.[82]

Учитывая набор из элементы и два перегородки из сравнивать, , раздел S в р подмножества и , раздел S в s подмножества, определите следующее:

  • , количество пар элементов в которые находятся в том же подмножестве в и в том же подмножестве в
  • , количество пар элементов в которые находятся в разных подмножествах в и в разных подмножествах в
  • , количество пар элементов в которые находятся в том же подмножестве в и в разных подмножествах в
  • , количество пар элементов в которые находятся в разных подмножествах в и в том же подмножестве в

Индекс Рэнда - - определяется как

Интуитивно можно рассматривать как количество соглашений между и и как количество разногласий между и .

Скорректированный индекс Rand

Скорректированный индекс Rand - это версия индекса Rand с поправкой на случайность.[82][83][84] Хотя индекс Rand может давать значение только от 0 до +1, скорректированный индекс Rand может давать отрицательные значения, если индекс меньше ожидаемого.[85]

Таблица непредвиденных обстоятельств

Учитывая набор из элементы и две группы или разделы (например кластеризации) этих точек, а именно и , перекрытие между и можно обобщить в таблице непредвиденных обстоятельств где каждая запись обозначает количество общих объектов между и  : .

X YСуммы
Суммы

Определение

Скорректированная форма Индекса Рэнда, Скорректированный Индекс Рэнда,

более конкретно

куда - значения из таблицы непредвиденных обстоятельств.

Поскольку знаменатель - это общее количество пар, индекс Rand представляет собой частота появления соглашений по всем парам, или вероятность того, что и договорится о случайно выбранной паре.

Оценка показателей

Разные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, в частности, в социологической литературе.

Если кто-то хочет просто сделать порядковый сравнения между образцами (один образец более или менее разнообразен, чем другой), выбор IQV относительно менее важен, поскольку они часто дают одинаковый порядок.

Если данные являются порядковыми, метод, который может быть использован при сравнении образцов, ОРДАНОВА.

В некоторых случаях полезно не стандартизировать индекс для запуска от 0 до 1, независимо от количества категорий или выборок (Уилкокс 1973, pp. 338), но обычно это стандартизируется.

Смотрите также

Примечания

  1. ^ Это может произойти только в том случае, если количество дел кратно количеству категорий.
  2. ^ Freemen LC (1965) Элементарная прикладная статистика. Нью-Йорк: Джон Уайли и сыновья, стр. 40–43.
  3. ^ Кендал М.К., Стюарт А. (1958) Продвинутая теория статистики. Издательство Hafner с. 46
  4. ^ Мюллер JE, Schuessler KP (1961) Статистическое мышление в социологии. Бостон: Компания Houghton Mifflin. стр. 177–179
  5. ^ Уилкокс (1967), п.[страница нужна ].
  6. ^ Кайзер Х.Ф. (1968) "Оценка качества законодательного распределения населения". Обзор американской политической науки 62 (1) 208
  7. ^ Джоэл Гомбин (18 августа 2015 г.). "qualvar: Первоначальный выпуск (Версия v0.1)". Зенодо. Дои:10.5281 / zenodo.28341.
  8. ^ Гиббс и Постон младший (1975).
  9. ^ Либерсон (1969), п. 851.
  10. ^ IQV в xycoon
  11. ^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем набора текста: приложение индекса разнообразия Симпсона». J Clin Microbiol. 26 (11): 2465–2466.
  12. ^ Фридман WF (1925) Частота совпадений и их применение в криптоанализе. Технический документ. Кабинет начальника связи. Типография правительства США.
  13. ^ Джини К.В. (1912) Изменчивость и изменчивость, вклад в изучение статистических распределений и отношений. Studi Economico-Giuricici della R. Universita de Cagliari
  14. ^ Симпсон, EH (1949). «Измерение разнообразия». Природа. 163 (4148): 688. Дои:10.1038 / 163688a0.
  15. ^ Бачи Р. (1956) Статистический анализ возрождения иврита в Израиле. В: Bachi R (ed) Scripta Hierosolymitana, Vol III, Jerusalem: Magnus press, стр. 179–247.
  16. ^ Мюллер JH, Schuessler KF (1961) Статистическое мышление в социологии. Бостон: Хоутон Миффлин
  17. ^ Гиббс, JP; Мартин, WT (1962). «Урбанизация, технологии и разделение труда: международные образцы». Американский социологический обзор. 27 (5): 667–677. Дои:10.2307/2089624. JSTOR  2089624.
  18. ^ Либерсон (1969), п.[страница нужна ].
  19. ^ Блау П. (1977) Неравенство и неоднородность. Свободная пресса, Нью-Йорк
  20. ^ Перри М., Кадер Г. (2005) Вариация как несходство. Статистика обучения 27 (2) 58–60
  21. ^ Гринберг, Дж. Х (1956). «Измерение языкового разнообразия». Язык. 32 (1): 109–115. Дои:10.2307/410659. JSTOR  410659.
  22. ^ Лотар Э.Х. (1978) докторская диссертация.[требуется полная цитата ]
  23. ^ Бергер, WH; Паркер, Флорида (1970). «Разнообразие планктонных фораменифер в глубоководных отложениях». Наука. 168 (3937): 1345–1347. Дои:10.1126 / science.168.3937.1345. PMID  17731043.
  24. ^ а б Хилл, М. О. (1973). «Разнообразие и ровность: объединяющая нотация и ее последствия». Экология. 54 (2): 427–431. Дои:10.2307/1934352. JSTOR  1934352.
  25. ^ Маргалеф Р. (1958) Временная последовательность и пространственная неоднородность фитопланктона. В кн .: Перспективы морской биологии. Buzzati-Traverso (редактор) Univ Calif Press, Беркли, стр. 323–347
  26. ^ Menhinick, EF (1964). «Сравнение некоторых индексов видового разнообразия применительно к выборкам полевых насекомых». Экология. 45 (4): 859–861. Дои:10.2307/1934933. JSTOR  1934933.
  27. ^ Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
  28. ^ Guiraud P (1954) Les caractères statistiques du лексика. Прессы Universitaires de France, Париж
  29. ^ Panas E (2001) The Generalized Torquist: Спецификация и оценка новой функции размера словаря и текста. Дж. Куант Линг 8 (3) 233–252
  30. ^ Кемптон, РА; Тейлор, Л. Р. (1976). «Модели и статистика видового разнообразия». Природа. 262 (5571): 818–820. Дои:10.1038 / 262818a0.
  31. ^ Hutcheson K (1970) Тест для сравнения разнообразия, основанный на формуле Шеннона. Дж. Тео Биол 29: 151–154
  32. ^ Фишер Р. А., Корбет А., Уильямс С. Б. (1943) Отношение между количеством видов и количеством особей в случайной выборке из популяции животных. Экология животных 12: 42–58
  33. ^ Анскомб (1950) Теория выборки распределений отрицательных биномиальных и логарифмических рядов. Биометрика 37: 358–382
  34. ^ Сильный, WL (2002). «Оценка неравномерности обилия видов внутри и между растительными сообществами». Общественная экология. 3 (2): 237–246. Дои:10.1556 / comec.3.2002.2.9.
  35. ^ Камарго Дж. А. (1993) Должно ли доминирование возрастать с увеличением числа подчиненных видов в конкурентных взаимодействиях? J. Theor Biol 161 537–542
  36. ^ Смит, Уилсон (1996)[требуется полная цитата ]
  37. ^ Булла, L (1994). «Индекс ровности и связанная с ним мера разнообразия». Ойкос. 70 (1): 167–171. Дои:10.2307/3545713. JSTOR  3545713.
  38. ^ Хорн, HS (1966). «Измерение« перекрытия »в сравнительных экологических исследованиях». Am Nat. 100 (914): 419–423. Дои:10.1086/282436.
  39. ^ Сигел, Эндрю Ф (2006) "Кривые разрежения". Энциклопедия статистических наук 10.1002 / 0471667196.ess2195.pub2.
  40. ^ Caswell H (1976) Структура сообщества: анализ нейтральной модели. Ecol Monogr 46: 327–354
  41. ^ Poulin, R; Муийо, Д. (2003). «Специализация паразитов с филогенетической точки зрения: новый индекс специфичности хозяина». Паразитология. 126 (5): 473–480. CiteSeerX  10.1.1.574.7432. Дои:10.1017 / s0031182003002993.
  42. ^ Theil H (1972) Статистический анализ декомпозиции. Амстердам: Издательская компания Северной Голландии>
  43. ^ Дункан О.Д., Дункан Б. (1955) Методологический анализ индексов сегрегации. Am Sociol Review, 20: 210–217.
  44. ^ Горард С., Тейлор С. (2002b) Что такое сегрегация? Сравнение мер с точки зрения «сильной» и «слабой» композиционной инвариантности. Социология, 36 (4), 875–895.
  45. ^ Massey, DS; Дентон, Н. А. (1988). «Размеры жилищной сегрегации». Социальные силы. 67 (2): 281–315. Дои:10.1093 / sf / 67.2.281.
  46. ^ Hutchens RM (2004) Одна мера сегрегации. Международный экономический обзор 45: 555–578
  47. ^ Либерсон С (1981). «Асимметричный подход к сегрегации». В Персик C, Робинсон V, Смит S (ред.). Этническая сегрегация в городах. Лондон: Крум Хелм. С. 61–82.
  48. ^ Белл, W (1954). «Вероятностная модель для измерения экологической сегрегации». Социальные силы. 32 (4): 357–364. Дои:10.2307/2574118. JSTOR  2574118.
  49. ^ Ochiai A (1957) Зоогеографические исследования солеидных рыб, обнаруженных в Японии и соседних регионах. Bull Jpn Soc Sci Fish 22: 526–530
  50. ^ Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Bulletin International de l'Académie Polonaise des Sciences et des Lettres, Classe des Sciences
  51. ^ Юле Г.У. (1900) Об ассоциации атрибутов в статистике. Филос Транс Рой Соц
  52. ^ Lienert GA и Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418
  53. ^ Барони-Урбани, C; Buser, MW (1976). «подобие двоичных данных». Систематическая биология. 25 (3): 251–259. Дои:10.2307/2412493. JSTOR  2412493.
  54. ^ Forbes SA (1907) О местном распространении некоторых рыб Иллинойса: очерк статистической экологии. Бюллетень лаборатории естествознания штата Иллинойс 7: 272–303
  55. ^ Алрой Дж. (2015) Новый поворот в очень старом бинарном коэффициенте подобия. Экология 96 (2) 575-586
  56. ^ Карл Р. Хаусман и Дуглас Р. Андерсон (2012). Беседы о Пирсе: реальность и идеалы. Издательство Фордхэмского университета. п. 221. ISBN  9780823234677.
  57. ^ Lance, G.N .; Уильямс, В. Т. (1966). «Компьютерные программы иерархической политетической классификации (« анализ подобия »)». Компьютерный журнал. 9 (1): 60–64. Дои:10.1093 / comjnl / 9.1.60.
  58. ^ Lance, G. N .; Уильямс, В. Т. (1967). "Программы классификации смешанных данных I.) Агломеративные системы". Австралийский компьютерный журнал: 15–20.
  59. ^ Жаккар П. (1902) Флора распределения. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38: 67-130
  60. ^ Archer AW и Maples CG (1989) Ответ выбранных биномиальных коэффициентов на различные степени разреженности матриц и на матрицы с известными взаимосвязями данных. Математическая геология 21: 741–753
  61. ^ а б Морисита М (1959) Измерение дисперсии и анализ схем распределения. Мемуары факультета естественных наук Университета Кюсю. Серия E. Biol 2: 215–235.
  62. ^ Ллойд М. (1967) Средняя скученность. J Anim Ecol 36: 1–30
  63. ^ Педиго Л.П. и Бунтин Г.Д. (1994) Справочник по методам отбора проб членистоногих в сельском хозяйстве. CRC Бока-Ратон, Флорида
  64. ^ Морисита М (1959) Измерение дисперсии и анализ схем распределения. Воспоминания факультета естественных наук Университета Кюсю, серия E «Биология». 2: 215–235
  65. ^ Хорн, HS (1966). «Измерение« перекрытия »в сравнительных экологических исследованиях». Американский натуралист. 100 (914): 419–424. Дои:10.1086/282436.
  66. ^ Смит-Гилл SJ (1975). «Цитофизиологические основы деструктивных пигментных паттернов у леопардовой лягушки. Рана пипиенс. II. Характерные особенности клеток дикого типа и мутантных клеток ". Дж. Морфол. 146: 35–54.
  67. ^ Пит (1974) Измерения видового разнообразия. Annu Rev Ecol Syst 5: 285–307
  68. ^ Тверски, Амос (1977). «Особенности сходства» (PDF). Психологический обзор. 84 (4): 327–352. Дои:10.1037 / 0033-295x.84.4.327.
  69. ^ Хименес С, Бесерра С, Гельбух А SOFTCARDINALITY-CORE: Улучшение перекрытия текста с распределительными мерами семантического текстового сходства. Вторая совместная конференция по лексической и вычислительной семантике (* SEM), Том 1: Труды основной конференции и общая задача: семантическое текстовое сходство, стр. 194-201. 7–8 июня 2013 г., Атланта, Джорджия, США
  70. ^ Моностори К., Финкель Р., Заславский А., Ходаш Г. и Патке М. (2002) Сравнение методов обнаружения перекрытия. В: Материалы Международной конференции по вычислительным наукам 2002 г. Конспект лекций по информатике 2329: 51-60
  71. ^ Бернштейн Й. и Зобель Дж. (2004) Масштабируемая система для идентификации сопроизводных документов. В: Материалы 11-й Международной конференции по обработке строк и поиску информации (SPIRE) 3246: 55-67
  72. ^ Превости, А; Рибо, G; Серра, L; Агуаде, М; Balanya, J; Монкл, М; Местрес, Ф (1988). "Колонизация Америки Drosophila subobscura: эксперимент в естественных популяциях, подтверждающий адаптивную роль полиморфизма хромосомной инверсии ». Proc Natl Acad Sci USA. 85 (15): 5597–5600. Дои:10.1073 / пнас.85.15.5597. ЧВК  281806. PMID  16593967.
  73. ^ Санчес, А; Ocana, J; Utzetb, F; Серрак, Л. (2003). «Сравнение генетических дистанций Превости». Журнал статистического планирования и вывода. 109 (1–2): 43–65. Дои:10.1016 / s0378-3758 (02) 00297-5.
  74. ^ ХаКоэн-Кернер Y, Тайеб А. и Бен-Дрор Н. (2010) Обнаружение простого плагиата в статьях по информатике. В: Материалы 23-й Международной конференции по компьютерной лингвистике, стр. 421-429.
  75. ^ Лейк Р. (1966) Мера порядкового консенсуса. Тихоокеанский социологический обзор 9 (2): 85–90.
  76. ^ Manfredo M, Vaske, JJ, Teel TL (2003) Индекс потенциала конфликта: графический подход к практическому значению исследования человеческих измерений. Человеческие аспекты дикой природы 8: 219–228
  77. ^ а б c Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Расширение и дальнейшая проверка индекса потенциала конфликта. Науки о досуге 32: 240–254
  78. ^ Van der Eijk C (2001) Соглашение об измерениях в упорядоченных рейтинговых шкалах. Качество и количество 35 (3): 325–341
  79. ^ Фон Мизес R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Ревю де ла Факультет наук Стамбульского университета, NS 4: 145−163
  80. ^ Севастьянов Б.А. (1972) Предельный закон Пуассона для схемы сумм зависимых случайных величин. (пер. С. М. Рудольфер) Теория вероятностей и ее приложения, 17: 695-699
  81. ^ Hoaglin DC, Mosteller, F и Tukey, JW (1985) Изучение таблиц данных, тенденций и форм, Нью-Йорк: Джон Вили
  82. ^ а б В. М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации. 66 (336): 846–850. arXiv:1704.01036. Дои:10.2307/2284239. JSTOR  2284239.
  83. ^ Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение перегородок». Журнал классификации. 2 (1): 193–218. Дои:10.1007 / BF01908075.
  84. ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Теоретико-информационные меры для сравнения кластеризации: нужна ли поправка на случайность?» (PDF). ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению. ACM. С. 1073–1080. Архивировано из оригинал (PDF) 25 марта 2012 г.PDF.
  85. ^ Вагнер, Силке; Вагнер, Доротея (12 января 2007 г.). «Сравнение кластеров - обзор» (PDF). Получено 14 февраля 2018.

Рекомендации

  • Гиббс, Джек П .; Постон-младший, Дадли Л. (март 1975 г.), «Разделение труда: концептуализация и соответствующие меры», Социальные силы, 53 (3): 468–476, CiteSeerX  10.1.1.1028.4969, Дои:10.2307/2576589, JSTOR  2576589
  • Либерсон, Стэнли (декабрь 1969 г.), «Измерение разнообразия населения», Американский социологический обзор, 34 (6): 850–862, Дои:10.2307/2095977, JSTOR  2095977
  • Свансон, Дэвид А. (сентябрь 1976 г.), "Выборочное распределение и тест значимости различий в качественных вариациях", Социальные силы, 55 (1): 182–184, Дои:10.2307/2577102, JSTOR  2577102
  • Уилкокс, Аллен Р. (июнь 1973 г.). «Индексы качественной вариативности и политического измерения». Западный политический квартал. 26 (2): 325–343. Дои:10.2307/446831. JSTOR  446831.