Более

Создавайте кластеры, используя долгую и широту


У меня около 4000 магазинов по всей стране. Исходя из дальности и дальности и бизнес-уровня, я хочу создать около 200 кластеров, каждый из которых может управлять 15-25 магазинами. Я хочу узнать, как это сделать, чтобы найти эти 200 кластеров. Можно ли это сделать? Если есть предложения, пожалуйста, подскажите, как это сделать.


Создавайте кластеры, используя долгую и широту - географические информационные системы

Откройте для себя мир пространственного анализа и картографии с помощью географических информационных систем (ГИС). В этом классе вы изучите основы ведущего в отрасли программного инструмента ArcGIS в течение четырех недельных модулей: Неделя 1: узнайте, как ГИС превратилась из бумажных карт в современные глобально интегрированные электронные пакеты программного обеспечения. Вы установите ArcGIS на свой компьютер и узнаете, как использовать онлайн-справку для ответов на технические вопросы. Неделя 2: Откройте ArcGIS и исследуйте данные с помощью ArcMap. Изучите основополагающие концепции ГИС, как анализировать данные и составьте свою первую карту. Неделя 3: Создавайте собственные карты! Обозначьте данные и создайте привлекательный конечный продукт. Неделя 4: Поделитесь своими данными и картами и научитесь хранить и систематизировать свои данные. Изучите основы ГИС как отдельный курс или как часть специализации по географическим информационным системам (ГИС). Завершив первый класс по специализации, вы получите навыки, необходимые для успешного прохождения полной программы. Студенты, которым нужна лицензия ArcGIS, получат некоммерческую студенческую лицензию на 1 год для участия в этом курсе и по специализации.


СОДЕРЖАНИЕ

Понятие «кластер» не может быть точно определено, что является одной из причин, почему существует так много алгоритмов кластеризации. [5] Есть общий знаменатель: группа объектов данных. Однако разные исследователи используют разные кластерные модели, и для каждой из этих кластерных моделей могут быть предложены разные алгоритмы. Понятие кластера, найденное различными алгоритмами, значительно различается по своим свойствам. Понимание этих «кластерных моделей» является ключом к пониманию различий между различными алгоритмами. Типичные кластерные модели включают:

  • Модель подключения s: например, иерархическая кластеризация строит модели на основе удаленной связи.
  • Центроидная модель s: например, алгоритм k-средних представляет каждый кластер одним вектором среднего.
  • Модель распределения s: кластеры моделируются с использованием статистических распределений, таких как многомерные нормальные распределения, используемые алгоритмом максимизации ожидания.
  • Модель плотности s: например, DBSCAN и OPTICS определяют кластеры как связанные плотные области в пространстве данных.
  • Подпространственная модель s: при бикластеризации (также известной как совместная кластеризация или двухрежимная кластеризация) кластеры моделируются как членами кластера, так и соответствующими атрибутами.
  • Групповая модель s: некоторые алгоритмы не предоставляют уточненную модель своих результатов, а просто предоставляют информацию о группировке.
  • Графическая модель s: клика, то есть подмножество узлов в графе, такое, что каждые два узла в подмножестве соединены ребром, может рассматриваться как прототипная форма кластера. Ослабление требований к полному подключению (часть ребер может отсутствовать) известны как квазиклики, как в алгоритме кластеризации HCS.
  • Модели подписанных графов: Каждый путь в графе со знаком имеет знак из произведения знаков на ребрах. Согласно предположениям теории баланса, ребра могут менять знак и приводить к раздвоению графа. Более слабая «аксиома кластеризации» (ни один цикл не имеет ровно одно отрицательное ребро) дает результаты с более чем двумя кластерами или подграфами только с положительными ребрами. [6]
  • Нейронная модель s: наиболее известной неконтролируемой нейронной сетью является самоорганизующаяся карта, и эти модели обычно можно охарактеризовать как аналогичные одной или нескольким из вышеперечисленных моделей, включая модели подпространств, когда нейронные сети реализуют форму анализа главных компонентов или анализа независимых компонентов.

«Кластеризация» - это, по сути, набор таких кластеров, обычно содержащих все объекты в наборе данных. Кроме того, он может определять взаимосвязь кластеров друг с другом, например иерархию кластеров, встроенных друг в друга. Кластеризации можно условно разделить на:

  • Жесткая кластеризация : каждый объект принадлежит кластеру или нет
  • Мягкая кластеризация (также:
  • нечеткая кластеризация): каждый объект в определенной степени принадлежит каждому кластеру (например, вероятность принадлежности к кластеру)

Возможны также более тонкие различия, например:

  • Кластеризация со строгим секционированием : каждый объект принадлежит ровно одному кластеру
  • Строгая кластеризация секционирования с выбросами : объекты также не могут принадлежать ни к одному кластеру и считаются выбросами
  • Перекрывающаяся кластеризация (также: альтернативная кластеризация, многовидовая кластеризация): объекты могут принадлежать более чем к одному кластеру, обычно включающему жесткие кластеры.
  • Иерархическая кластеризация : объекты, которые принадлежат дочернему кластеру, также принадлежат родительскому кластеру
  • Подпространственная кластеризация: при перекрывающейся кластеризации внутри однозначно определенного подпространства кластеры не должны перекрываться

Как указано выше, алгоритмы кластеризации можно разделить на категории в зависимости от их кластерной модели. В следующем обзоре будут перечислены только наиболее известные примеры алгоритмов кластеризации, поскольку существует, возможно, более 100 опубликованных алгоритмов кластеризации. Не все предоставляют модели для своих кластеров, и поэтому их нелегко разделить на категории. Обзор алгоритмов, объясненных в Википедии, можно найти в списке статистических алгоритмов.

Не существует объективно «правильного» алгоритма кластеризации, но, как было отмечено, «кластеризация - в глазах смотрящего». [5] Наиболее подходящий алгоритм кластеризации для конкретной задачи часто необходимо выбирать экспериментально, если нет математической причины предпочесть одну модель кластера другой. Алгоритм, разработанный для одного типа модели, обычно не работает на наборе данных, который содержит совершенно другой тип модели. [5] Например, k-means не может найти невыпуклые кластеры. [5]

Кластеризация на основе подключения (иерархическая кластеризация) Править

Кластеризация на основе подключения, также известная как иерархическая кластеризация, основан на основной идее о том, что объекты больше связаны с близлежащими объектами, чем с объектами, находящимися дальше. Эти алгоритмы соединяют «объекты» в «кластеры» в зависимости от их расстояния. Кластер можно описать в основном максимальным расстоянием, необходимым для соединения частей кластера. На разных расстояниях будут формироваться разные кластеры, которые можно представить с помощью дендрограммы, объясняющей, откуда взялось общее название «иерархическая кластеризация»: эти алгоритмы не обеспечивают единого разделения набора данных, а вместо этого обеспечивают обширную иерархию кластеры, которые сливаются друг с другом на определенных расстояниях. В дендрограмме ось Y отмечает расстояние, на котором кластеры сливаются, а объекты размещаются вдоль оси x таким образом, чтобы кластеры не смешивались.

Кластеризация на основе подключения - это целое семейство методов, которые различаются способом вычисления расстояний. Помимо обычного выбора функций расстояния, пользователю также необходимо выбрать критерий связи (поскольку кластер состоит из нескольких объектов, есть несколько кандидатов для вычисления расстояния) для использования. Популярные варианты известны как однократная кластеризация (минимум расстояний между объектами), полная кластеризация связей (максимум расстояний между объектами) и UPGMA или WPGMA («невзвешенный или взвешенный метод парной группы со средним арифметическим», также известный как средняя связь. кластеризация). Кроме того, иерархическая кластеризация может быть агломеративной (начиная с отдельных элементов и объединяя их в кластеры) или разделяющей (начиная с полного набора данных и разделяя его на разделы).

Эти методы не создадут уникального разделения набора данных, а создадут иерархию, из которой пользователю по-прежнему необходимо выбрать подходящие кластеры. Они не очень устойчивы по отношению к выбросам, которые либо проявляются как дополнительные кластеры, либо даже вызывают слияние других кластеров (известное как «явление сцепления», в частности, при кластеризации с одной связью). В общем случае сложность составляет O (n 3) < displaystyle < mathcal > (n ^ <3>)> для агломеративной кластеризации и O (2 n - 1) < displaystyle < mathcal >(2^)> для разделяющей кластеризации [7], что делает их слишком медленными для больших наборов данных. Для некоторых особых случаев оптимальные эффективные методы (сложности O (n 2) < displaystyle < mathcal > (n ^ <2>)>) известны: SLINK [8] для одиночной связи и CLINK [9] для кластеризации полной связи. В сообществе интеллектуального анализа данных эти методы признаны теоретической основой кластерного анализа, но часто считаются устаревшими [ нужна цитата ]. Однако они послужили источником вдохновения для многих более поздних методов, таких как кластеризация на основе плотности.

Одинарная связь по гауссовским данным. В 35 кластерах самый большой кластер начинает фрагментироваться на более мелкие части, в то время как раньше он все еще был связан со вторым по величине из-за эффекта одноканальности.

Одинарное соединение на кластерах на основе плотности. Извлечено 20 кластеров, большинство из которых содержат одиночные элементы, поскольку кластеризация связей не имеет понятия «шум».

Кластеризация на основе центроидов Править

При кластеризации на основе центроидов кластеры представлены центральным вектором, который не обязательно может быть членом набора данных. Когда количество кластеров зафиксировано на k, k- означает, что кластеризация дает формальное определение проблемы оптимизации: найти k центры кластера и назначьте объекты ближайшему центру кластера, чтобы квадраты расстояний от кластера были минимизированы.

Сама задача оптимизации, как известно, является NP-трудной, и поэтому общий подход заключается в поиске только приближенных решений. Особенно хорошо известен приближенный метод - алгоритм Ллойда [10], который часто называют просто "алгоритм k-средних"(хотя это имя было введено другим алгоритмом). Однако он находит только локальный оптимум и обычно запускается несколько раз с разными случайными инициализациями. Варианты k-средства часто включают такие оптимизации, как выбор лучшего из нескольких прогонов, но также ограничение центроидов членами набора данных (k-медоиды), выбирая медианы (k-медианы кластеризации), менее случайным выбором начальных центров (k-means ++) или разрешение нечеткого назначения кластера (нечеткие c-means).

Наиболее k-Алгоритмы среднего типа требуют количества кластеров - k - уточняется заранее, что считается одним из самых больших недостатков этих алгоритмов. Кроме того, алгоритмы предпочитают кластеры примерно одинакового размера, так как они всегда присваивают объект ближайшему центроиду. Это часто приводит к неправильной обрезке границ кластеров (что неудивительно, поскольку алгоритм оптимизирует центры кластеров, а не границы кластеров).

K-means обладает рядом интересных теоретических свойств. Во-первых, он разбивает пространство данных на структуру, известную как диаграмма Вороного. Во-вторых, он концептуально близок к классификации ближайшего соседа и поэтому популярен в машинном обучении. В-третьих, его можно рассматривать как вариант кластеризации на основе модели, а алгоритм Ллойда - как вариант алгоритма максимизации ожидания для этой модели, обсуждаемой ниже.

k-средство разделения данных на ячейки Вороного, что предполагает наличие кластеров одинакового размера (здесь недостаточно)

k-средства не могут представлять кластеры на основе плотности

Проблемы кластеризации на основе центроидов, такие как k-средства и k-медоиды - это частные случаи некомпенсированной метрической проблемы размещения оборудования, канонической проблемы в сообществах исследователей операций и вычислительной геометрии. В основной задаче размещения объекта (существует множество вариантов, моделирующих более сложные настройки), задача состоит в том, чтобы найти лучшие складские места для оптимального обслуживания заданного набора потребителей. Можно рассматривать «склады» как центроиды кластера, а «местоположения потребителей» - как данные, подлежащие кластеризации. Это позволяет применить хорошо разработанные алгоритмические решения из литературы по размещению объектов к рассматриваемой в настоящее время задаче кластеризации на основе центроидов.

Кластеризация на основе распределения Править

Модель кластеризации, наиболее тесно связанная со статистикой, основана на моделях распределения. Затем кластеры можно легко определить как объекты, принадлежащие, скорее всего, к одному и тому же распределению. Удобным свойством этого подхода является то, что он очень похож на способ создания наборов искусственных данных: путем выборки случайных объектов из распределения.

Хотя теоретическая основа этих методов превосходна, они страдают от одной ключевой проблемы, известной как переобучение, если не накладываются ограничения на сложность модели. Более сложная модель обычно лучше объясняет данные, что затрудняет выбор подходящей сложности модели.

Один известный метод известен как модели смеси Гаусса (с использованием алгоритма максимизации ожидания). Здесь набор данных обычно моделируется с фиксированным (чтобы избежать переобучения) количеством гауссовых распределений, которые инициализируются случайным образом и параметры которых итеративно оптимизируются, чтобы лучше соответствовать набору данных. Это приведет к локальному оптимуму, поэтому несколько прогонов могут дать разные результаты. Чтобы получить жесткую кластеризацию, объектам часто затем назначается гауссово распределение, которому они, скорее всего, принадлежат для мягкой кластеризации, в этом нет необходимости.

Кластеризация на основе распределения создает сложные модели для кластеров, которые могут фиксировать корреляцию и зависимость между атрибутами. Однако эти алгоритмы ложатся дополнительным бременем на пользователя: для многих реальных наборов данных может не быть четко определенной математической модели (например, если предположить, что распределение Гаусса является довольно сильным допущением для данных).

Кластеры на основе плотности не могут быть смоделированы с использованием гауссовых распределений.

Кластеризация на основе плотности Править

В кластеризации на основе плотности [11] кластеры определяются как области с более высокой плотностью, чем остальная часть набора данных. Объекты в разреженных областях, необходимые для разделения кластеров, обычно считаются шумовыми и граничными точками.

Самый популярный [12] метод кластеризации, основанный на плотности, - это DBSCAN. [13] В отличие от многих новых методов, он имеет четко определенную кластерную модель, называемую «плотность-достижимость». Подобно кластеризации на основе связей, она основана на соединении точек в пределах определенных пороговых значений расстояния. Однако он соединяет только точки, удовлетворяющие критерию плотности, в исходном варианте, определяемом как минимальное количество других объектов в пределах этого радиуса. Кластер состоит из всех связанных плотностью объектов (которые могут образовывать кластер произвольной формы, в отличие от многих других методов) плюс все объекты, которые находятся в пределах диапазона этих объектов. Еще одно интересное свойство DBSCAN заключается в том, что его сложность довольно низкая - для него требуется линейное количество запросов диапазона в базе данных - и что он обнаружит практически одинаковые результаты (он детерминирован для точек ядра и шума, но не для пограничных точек) при каждом запуске, поэтому нет необходимости запускать его несколько раз. OPTICS [14] - это обобщение DBSCAN, которое устраняет необходимость выбора подходящего значения для параметра диапазона ε < displaystyle varepsilon> и дает иерархический результат, связанный с кластеризацией связей. DeLi-Clu, [15] Density-Link-Clustering объединяет идеи одинарной кластеризации и OPTICS, полностью устраняя параметр ε < displaystyle varepsilon> и предлагая улучшения производительности по сравнению с OPTICS за счет использования индекса R-tree.

Ключевым недостатком DBSCAN и OPTICS является то, что они ожидают некоторого падения плотности для обнаружения границ кластера. В наборах данных, например, с перекрывающимися распределениями Гаусса - обычным случаем использования искусственных данных - границы кластера, созданные этими алгоритмами, часто будут выглядеть произвольно, поскольку плотность кластера непрерывно уменьшается. На наборе данных, состоящем из смеси гауссиан, эти алгоритмы почти всегда уступают по производительности таким методам, как EM-кластеризация, которые способны точно моделировать такие данные.

Среднее смещение - это подход к кластеризации, при котором каждый объект перемещается в наиболее плотную область в его окрестностях на основе оценки плотности ядра. В конце концов, объекты сходятся к локальным максимумам плотности. Подобно кластеризации k-средних, эти «аттракторы плотности» могут служить представителями набора данных, но средний сдвиг может обнаруживать кластеры произвольной формы, аналогичные DBSCAN. Из-за дорогостоящей итерационной процедуры и оценки плотности сдвиг среднего обычно происходит медленнее, чем DBSCAN или k-Means. Кроме того, применимость алгоритма среднего сдвига к многомерным данным затруднена из-за негладкого поведения оценки плотности ядра, что приводит к чрезмерной фрагментации хвостов кластера. [15]

Кластеризация на основе плотности с помощью DBSCAN.

DBSCAN предполагает наличие кластеров одинаковой плотности и может иметь проблемы с разделением соседних кластеров.

OPTICS - это вариант DBSCAN, улучшающий обработку кластеров различной плотности.

Кластеризация на основе сетки Править

Метод на основе сетки используется для многомерного набора данных. [16] В этом методе мы создаем структуру сетки, и сравнение выполняется на сетках (также известных как ячейки). Метод на основе сетки быстр и имеет низкую вычислительную сложность. Существует два типа методов кластеризации на основе сетки: STING и CLIQUE. Шаги, связанные с алгоритмом кластеризации на основе сетки:

  1. Разделите пространство данных на конечное количество ячеек.
  2. Произвольно выберите ячейку «c», где c не следует переходить заранее.
  3. Рассчитайте плотность "c"
  4. Если плотность «c» больше пороговой плотности
    1. Отметьте ячейку «c» как новый кластер
    2. Рассчитайте плотность всех соседей «c»
    3. Если плотность соседней ячейки больше, чем пороговая плотность, тогда добавьте ячейку в кластер и повторяйте шаги 4.2 и 4.3, пока не будет соседа с плотностью, превышающей пороговую плотность.

    Последние события Править

    В последние годы были приложены значительные усилия для повышения производительности существующих алгоритмов. [17] [18] Среди них CLARANS, [19] и БЕРЕЗА. [20] В связи с недавней необходимостью обрабатывать все большие и большие наборы данных (также известные как большие данные), растет желание торговать семантическим значением сгенерированных кластеров для повышения производительности. Это привело к развитию методов предварительной кластеризации, таких как кластеризация навеса, которые могут эффективно обрабатывать огромные наборы данных, но полученные «кластеры» представляют собой всего лишь грубое предварительное разбиение набора данных для последующего анализа разделов с помощью существующих более медленных методов, таких как как k-означает кластеризацию.

    Для данных большой размерности многие из существующих методов терпят неудачу из-за проклятия размерности, которое делает определенные функции расстояния проблематичными в пространствах большой размерности. Это привело к новым алгоритмам кластеризации для многомерных данных, которые сосредоточены на кластеризации подпространств (где используются только некоторые атрибуты, а модели кластеров включают соответствующие атрибуты для кластера) и корреляционной кластеризации, которая также ищет произвольно повернутое («коррелированное») подпространство. кластеры, которые можно моделировать, задавая корреляцию их атрибутов. [21] Примерами таких алгоритмов кластеризации являются CLIQUE [22] и SUBCLU. [23]

    Идеи методов кластеризации на основе плотности (в частности, семейство алгоритмов DBSCAN / OPTICS) были адаптированы для кластеризации подпространств (HiSC, [24] иерархическая кластеризация подпространств и DiSH [25]) и корреляционной кластеризации (HiCO, [26] иерархическая корреляция). кластеризация, 4C [27] с использованием «корреляционной связи» и ERiC [28], исследующие иерархические корреляционные кластеры на основе плотности).

    Было предложено несколько различных систем кластеризации, основанных на взаимной информации. Один - Марина Мейла изменение информации metric [29] другой обеспечивает иерархическую кластеризацию. [30] Используя генетические алгоритмы, можно оптимизировать широкий спектр различных функций соответствия, включая взаимную информацию. [31] Распространение убеждений, недавнее развитие информатики и статистической физики, привело к созданию новых типов алгоритмов кластеризации. [32]

    Оценка (или «проверка») результатов кластеризации так же сложна, как и сама кластеризация. [33] Популярные подходы включают "внутренний«оценка, где кластеризация сводится к единой оценке качества»,внешний«оценка, в которой кластеризация сравнивается с существующей классификацией« основной истины »»,руководство по эксплуатации"оценка эксперта-человека, и"косвенный"оценка путем оценки полезности кластеризации в ее предполагаемом приложении. [34]

    Меры внутренней оценки страдают от того, что они представляют функции, которые сами по себе могут рассматриваться как цель кластеризации. Например, можно кластеризовать набор данных по коэффициенту Silhouette, за исключением того, что для этого не существует известного эффективного алгоритма. Используя такую ​​внутреннюю меру для оценки, можно скорее сравнить сходство задач оптимизации [34] и не обязательно то, насколько полезна кластеризация.

    Внешняя оценка имеет аналогичные проблемы: если бы у нас были такие метки «истинной истины», нам не нужно было бы кластеризоваться, и в практических приложениях у нас обычно нет таких меток. С другой стороны, метки отражают только одно возможное разделение набора данных, что не означает, что не существует другой, а может быть, даже лучшей кластеризации.

    Следовательно, ни один из этих подходов не может в конечном итоге судить о фактическом качестве кластеризации, но для этого нужна человеческая оценка [34], которая очень субъективна. Тем не менее, такая статистика может быть весьма информативной при выявлении плохих кластеров [35], но не следует сбрасывать со счетов субъективную оценку человека. [35]

    Внутренняя оценка Править

    Когда результат кластеризации оценивается на основе данных, которые сами были кластеризованы, это называется внутренней оценкой. Эти методы обычно присваивают лучший результат алгоритму, который создает кластеры с высоким сходством внутри кластера и низким сходством между кластерами. Одним из недостатков использования внутренних критериев при оценке кластера является то, что высокие баллы по внутреннему показателю не обязательно приводят к созданию эффективных приложений для поиска информации. [36] Кроме того, эта оценка смещена в сторону алгоритмов, использующих одну и ту же модель кластера. Например, кластеризация k-средних естественным образом оптимизирует расстояния до объектов, а внутренний критерий, основанный на расстоянии, скорее всего, переоценит результирующую кластеризацию.

    Следовательно, меры внутренней оценки лучше всего подходят для понимания ситуаций, когда один алгоритм работает лучше, чем другой, но это не должно означать, что один алгоритм дает более достоверные результаты, чем другой. [5] Достоверность, измеряемая таким индексом, зависит от утверждения о том, что такая структура существует в наборе данных. Алгоритм, разработанный для каких-то моделей, не имеет шансов, если набор данных содержит радикально другой набор моделей или если оценка измеряет радикально другой критерий. [5] Например, кластеризация k-средних может находить только выпуклые кластеры, а многие индексы оценки предполагают выпуклые кластеры. На наборе данных с невыпуклыми кластерами ни использование k-средства, ни критерий оценки, предполагающий выпуклость, не является правильным.

    Существует более десятка мер внутренней оценки, обычно основанных на интуиции, что элементы в одном кластере должны быть более похожими, чем элементы в разных кластерах. [37]: 115–121 Например, для оценки качества алгоритмов кластеризации по внутреннему критерию можно использовать следующие методы:

    Внешняя оценка Править

    При внешней оценке результаты кластеризации оцениваются на основе данных, которые не использовались для кластеризации, таких как известные метки классов и внешние тесты. Такие тесты состоят из набора предварительно классифицированных элементов, и эти наборы часто создаются (экспертами) людьми. Таким образом, наборы эталонных показателей можно рассматривать как золотой стандарт оценки. [33] Эти типы методов оценки измеряют, насколько близка кластеризация к заранее определенным тестовым классам. Однако недавно обсуждалось, подходит ли это для реальных данных или только для синтетических наборов данных с фактической базовой истиной, поскольку классы могут содержать внутреннюю структуру, присутствующие атрибуты могут не допускать разделения кластеров или классы могут содержать аномалии. [39] Кроме того, с точки зрения открытия знаний воспроизведение известных знаний не обязательно может быть предполагаемым результатом. [39] В специальном сценарии ограниченной кластеризации, когда метаинформация (например, метки классов) используется уже в процессе кластеризации, удержание информации для целей оценки нетривиально. [40]

    Ряд показателей адаптирован из вариантов, используемых для оценки задач классификации. Вместо подсчета количества раз, когда класс был правильно назначен одной точке данных (известный как истинные положительные результаты), такие парный подсчет метрики оценивают, предсказывается ли, что каждая пара точек данных, которая действительно находится в одном кластере, находится в одном кластере. [33]

    Как и в случае с внутренней оценкой, существует несколько методов внешней оценки [37]: 125–129, например:

    • Чистота: Чистота - это мера того, в какой степени кластеры содержат один класс. [36] Его расчет можно представить следующим образом: для каждого кластера подсчитайте количество точек данных из наиболее распространенного класса в указанном кластере. Теперь возьмите сумму по всем кластерам и разделите на общее количество точек данных. Формально, учитывая некоторый набор кластеров M < displaystyle M> и некоторый набор классов D < displaystyle D>, оба разделяющие N < displaystyle N> точек данных, чистоту можно определить как:
    • Индекс Рэнда[41]

    Одна из проблем с индексом Rand заключается в том, что ложные срабатывания и ложные отрицательные результаты имеют одинаковый вес. Это может быть нежелательной характеристикой для некоторых приложений кластеризации. F-мера решает эту проблему, [ нужна цитата ], как и скорректированный по случайности скорректированный индекс Rand.

    • F-мера
    • Индекс Жаккара
    • Индекс игры в кости
    • Индекс Фаулкса – Маллоуса[42]
    • В взаимная информация - это теоретико-информационная мера того, сколько информации используется совместно с кластеризацией и классификацией на основе фактов, которая может обнаруживать нелинейное сходство между двумя кластерами. Нормализованная взаимная информация - это семейство вариантов с поправкой на случайность, у которых есть уменьшенная систематическая ошибка для различных номеров кластеров. [33]
    • Матрица путаницы

    Кластерная тенденция Править

    Для измерения кластерной тенденции необходимо измерить, в какой степени кластеры существуют в данных, подлежащих кластеризации, и это может быть выполнено в качестве начального теста перед попыткой кластеризации. Один из способов сделать это - сравнить данные со случайными данными. В среднем случайные данные не должны иметь кластеров.


    Раковые кластеры

    Узнайте больше о работе CDC / ATSDR и rsquos по обновлению рекомендаций по оценке потенциальных кластеров рака и реагированию на них.

    А кластер рака определяется как большее, чем ожидалось, количество случаев рака, которое происходит в группе людей в географической области за период времени. Ознакомьтесь с информацией о кластерах рака, чтобы узнать больше.

    Местные или государственные департаменты здравоохранения, а также онкологические регистры отвечают на вопросы онкологического кластера и имеют самые свежие местные данные. Если вы подозреваете наличие онкологического кластера в вашем районе или на рабочем месте, или если вам нужна такая информация, как статистика рака или тенденции в вашем районе, сначала обратитесь в местный или государственный департамент здравоохранения или в регистр рака штата.

    Когда люди обращаются в CDC с опасениями по поводу подозреваемого кластера рака, CDC предоставляет общую информацию о кластерах рака и направляет их в соответствующий местный или государственный департамент здравоохранения или онкологический реестр. CDC также предоставляет технические консультации штатам по запросу и разрабатывает рекомендации для государственных, территориальных, местных и племенных департаментов здравоохранения о том, как реагировать на проблемы кластера рака.


    Наличие

    Учебная нагрузка студентов по этому предмету с 3 кредитными баллами составляет примерно 130 часов.

    • 26 часов лекций (дидактических или интерактивных)
    • 26 часов практических занятий
    • оценка и самостоятельное обучение

    Учебная нагрузка студентов по этому предмету с 3 кредитными баллами составляет примерно 130 часов.

    Учебная нагрузка студентов по этому предмету с 3 кредитными баллами составляет примерно 130 часов.

    • 26 часов лекций (дидактических или интерактивных)
    • 26 часов практических занятий
    • оценка и самостоятельное обучение

    Примечание. Незначительные отклонения могут возникнуть из-за непрерывного процесса улучшения качества предмета, а в случае незначительного (-ых) отклонения (-ий) в деталях оценки, Краткое содержание предмета представляет собой последнюю официальную информацию.


    Результаты программы

    • Описать основные концепции и терминологию ГИС.
    • Обсудите роль ГИС в бизнесе, правительстве, геодезии и природных ресурсах.
    • Создание данных и управление ими с помощью ArcView
    • Объясните принципы и применение дистанционного зондирования.
    • Обсудите основы глобальной системы позиционирования (GPS), включая историю и приложения.
    • Используйте MS Access для создания и управления данными с помощью таблиц, запросов, форм и реляционных баз данных.
    • Проектировать и поддерживать географическую информационную систему.
    • Обсудите типы и варианты Интернет-картографии.

    Геопространственные информационные науки

    Наши программы бакалавриата и магистратуры и программы сертификации в области наук о геопространственной информации готовят студентов к работе в быстрорастущей области, которая включает использование технологий для сбора, хранения, управления и анализа географических данных. Студенты получают навыки использования технологий, включая географические информационные системы (ГИС), систему глобального позиционирования (GPS) и спутниковое дистанционное зондирование.

    Программа наук о геопространственной информации заняла первое место в стране по ГИС-наукам / вычислениям и пространственному анализу / статистике с географической точки зрения. Национальное агентство геопространственной разведки и Геологическая служба США назвали программу Центром академического мастерства, единственным в Техасе и одним из 17 по всей стране, а Исследовательский институт наук об окружающей среде (ESRI) назвал эту программу одним из центров своих разработок. На нашем факультете работают ведущие специалисты в этой области и новаторские исследователи в области геопространственной информации.

    У студентов есть возможность получить опыт посредством стажировок, исследований и участия в студенческих организациях. Программа также предлагает стипендии и стипендии в рамках партнерства с Pioneer Natural Resources.


    Наличие

    Учебная нагрузка студентов по этому предмету с 3 кредитными баллами составляет примерно 130 часов.

    • 26 часов лекций (дидактических или интерактивных)
    • 26 часов практических занятий
    • оценка и самостоятельное обучение

    Учебная нагрузка студентов по этому предмету с 3 кредитными баллами составляет примерно 130 часов.

    Учебная нагрузка студентов по этому предмету с 3 кредитными баллами составляет примерно 130 часов.

    • 26 часов лекций (дидактических или интерактивных)
    • 26 часов практических занятий
    • оценка и самостоятельное обучение

    Примечание. Незначительные отклонения могут возникнуть из-за непрерывного процесса улучшения качества предмета, а в случае незначительного (-ых) отклонения (-ий) в деталях оценки, Краткое содержание предмета представляет собой последнюю официальную информацию.


    Стволы и бивни

    Уши слона излучают тепло, чтобы помочь этим крупным животным оставаться в прохладе, но иногда африканская жара бывает слишком сильной. Слоны любят воду и любят принимать душ, всасывая воду в свои хоботы и распыляя ее на себя. Afterwards, they often spray their skin with a protective coating of dust.

    An elephant's trunk is actually a long nose used for smelling, breathing, trumpeting, drinking, and also for grabbing things—especially a potential meal. The trunk alone contains about 40,000 muscles. African elephants have two fingerlike features on the end of their trunk that they can use to grab small items. (Asian elephants have just one.)

    Both male and female African elephants have tusks, which are continuously growing teeth. Savanna elephants have curving tusks, while the tusks of forest elephants are straight. They use these tusks to dig for food and water and strip bark from trees. Males, whose tusks tend to be larger than females', also use their tusks to battle one another.

    Elephants eat roots, grasses, fruit, and bark. An adult elephant can consume up to 300 pounds of food in a single day. These hungry animals do not sleep much, roaming great distances while foraging for the large quantities of food that they require to sustain their massive bodies.

    African elephants range throughout the savannas of sub-Saharan Africa and the rainforests of Central and West Africa. The continent’s northernmost elephants are found in Mali’s Sahel Desert. The small, nomadic herd of Mali elephants migrates in a circular route through the desert in search of water.

    Because elephants eat so much, they’re increasingly coming into contact with humans. An elephant can destroy an entire season of crops in a single night. A number of conservation programs work with farmers to help them protect their crops and provide compensation when an elephant does raid them.


    Computers, Environment and Urban Systems

    Computers, Environment and Urban Systems is an interdisciplinary journal publishing cutting-edge and innovative computer-based research на urban systems, systems of cities, and built and natural environments , that privileges the геопространственный perspective. The journal provides a stimulating presentation.

    Computers, Environment and Urban Systems is an interdisciplinary journal publishing cutting-edge and innovative computer-based research на urban systems, systems of cities, and built and natural environments , that privileges the геопространственный perspective. The journal provides a stimulating presentation of perspectives, research developments, overviews of important new technologies and uses of major computational, information-based, and visualization innovations. Applied and theoretical contributions demonstrate the scope of computer-based analysis fostering a better understanding of urban systems, the synergistic relationships between built and natural environments, their spatial scope and their dynamics.

    Application areas include infrastructure and facilities management, physical planning and urban design, land use and transportation, business and service planning, coupled human and natural systems, urban planning, socio-economic development, emergency response and hazards, and land and resource management. Examples of methodological approaches include decision support systems, geocomputation, spatial statistical analysis, complex systems and artificial intelligence, visual analytics and geovisualization, ubiquitous computing, and space-time simulation.

    Contributions emphasizing the development and enhancement of computer-based technologies for the analysis and modeling, policy formulation, planning, and management of environmental and urban systems that enhance sustainable futures are especially sought. The journal also encourages research on the modalities through which information and other computer-based technologies mold environmental and urban systems.

    Audience:
    Urban and regional planners and policy analysts, environmental planners, economic geographers, geospatial information scientists and technologists, regional scientists and policy makers, architectural designers.


    Смотреть видео: СОБЫТИЯ: Золотой Ленин, мебельный кластер, рок-музыка (October 2021).