Более

Как определить, примерно равны ли две геометрические фигуры с помощью PostGIS?


Я хотел бы знать, как определить, примерно равны ли две геометрические фигуры (the_geom).

Кстати, я работаю с Python, PostgreSQL и Postgis

У меня есть следующие геометрические формы:

0101000020110F0000FE546AD2413E5EC16D56617C93C74FC1

0101000020110F00009D7E6384413E5EC10185DD7F93C74FC1

Когда я вижу на карте обе фигуры, разница незаметна.

Любая идея?


Может, захотите попробовать HausdorffDistance. Подходит для такого рода вопросов.

SELECT ST_HausdorffDistance ('0101000020110F0000FE546AD2413E5EC16D56617C93C74FC1' :: geometry, '0101000020110F00009D7E6384413E5EC10185DD7F93C74FC1' :: geometry);

Подробно здесь:

http://postgis.net/docs/ST_HausdorffDistance.html

И как объясняется в / wiki / Hausdorff_distance:

Неформально два набора близки по расстоянию Хаусдорфа, если каждая точка одного набора близка к некоторой точке другого набора. Расстояние Хаусдорфа - это самое большое расстояние, на которое вы можете быть вынуждены пройти противник, который выбирает точку в одном из двух наборов, откуда вы затем должны отправиться в другой набор. Другими словами, это наибольшее из всех расстояний от точки в одном наборе до ближайшей точки в другом наборе.


Рекурсивное пересечение многоугольников в PostGIS

Я пытаюсь выполнить рекурсивное пересечение между всеми полигонами в пространственной таблице и получить результирующие (мульти) полигоны и информацию о каждом пересечении для каждого из них.

Изображение (не совсем в масштабе), чтобы объяснить это:

Допустим, в таблице есть квадраты A, B, C. Я хотел бы, чтобы на выходе были многоугольники A, B, C, A + B, A + C, B + C, A + B + C, и мне нужно знать, что A + B - это пересечение A и B и скоро.

Пока у меня есть запрос, который выполняет пересечения, но не «отсекает» пересеченную часть исходных многоугольников. Например:

Изображение результата, которое я получаю для полигонов A и A + C:

Вот тестовый сценарий, использующий квадраты на изображениях в качестве данных. Глядя на столбец области, становится ясно, что отсутствует какая-то рекурсивная ST_Difference, я просто не могу понять, как это сделать. Приветствуются любые идеи.

Конечно, оконная функция не является строго необходимой в этом конкретном примере, но этот код является упрощенной версией моего реального случая, который выполняет еще несколько вещей на стороне.


Как определить, примерно равны ли две геометрические фигуры с помощью PostGIS? - Географические информационные системы

Важной операцией пространственного анализа является эффективное объединение данных из разных источников. Объединение - это процесс объединения «двух файлов цифровых карт для создания третьего файла карты, который лучше, чем каждая из составляющих исходных карт» (Ruiz et al., 2011). Наборы данных в объединении обычно имеют определенные общие черты, представляющие одни и те же объекты в реальности, которые необходимо сопоставить и объединить.

Сопоставление важно в пространственном анализе, потому что разные агентства и поставщики, каждый с разной ролью и областью применения, часто создают пространственные данные для одного и того же типа объектов. Типичная проблема объединения - объединение транспортных сетей. Ввиду важности дорог как коридоров движения и общей справочной системы многие агентства и организации предоставляют данные о транспортных сетях. Государственные агентства (такие как US Census и USGS) поддерживают хорошо известные базы данных по дорогам, такие как TIGER / Line. Частные поставщики (такие как TeleAtlas и Navteq) производят высококачественные наборы сетевых данных для целей навигации. Развитие сенсорных технологий и движение за открытые данные сделали все больше и больше данных об уличных сетях (среди других типов данных) доступными общественности в виде добровольной географической информации (VGI) (Goodchild, 2007). Специалисту по планированию перевозок часто необходимо объединить в своем анализе всевозможную информацию о транспортной инфраструктуре и социально-экономических характеристиках населения из этих источников данных.

Подобно оцифровке и другим процессам подготовки данных, объединение может быть трудоемкой процедурой. Из-за объема и сложности функций в наборах данных объединение может быть дорогостоящим и требовать много времени. Для сравнения, автоматизированные методы объединения пытаются сопоставить соответствующие функции и автоматически объединить их. Методы систематического сопоставления варьируются от простых с использованием стандартных операций ГИС, таких как анализ буфера и наложения, до более сложных, которые измеряют сходство между парами пространственных объектов и сопоставляют объекты в свете пространственного контекста и отношений. Однако полностью автоматизированное сопоставление и объединение функций в настоящее время все еще затруднено. Например, основные операции ГИС, такие как анализ буфера и наложения, не работают хорошо при наличии пространственного смещения объектов, характерных для разнородных данных. На рисунке 1 (Lei & Lei, 2019) показан пример пространственного смещения с использованием различных наборов дорожных данных, охватывающих Санта-Барбару, Калифорния (из Open Street Map, TIGER / Line и TeleAtlas, соответственно).

Рисунок 1. Пространственное смещение между различными наборами дорожных данных (Санта-Барбара, Калифорния).

Помимо ручного сопоставления, компьютеризированные методы сопоставления обычно используют определенные отношения между функциями-кандидатами из двух наборов данных для поиска потенциальных совпадений. Важной характеристикой отношения соответствия между функциями является «количество элементов» отношений между объектами из теории реляционных баз данных. Мощность отношения - это количество раз, когда объекты из одного набора данных могут быть связаны с объектами в другом наборе данных. Возможны три случая мощности отношений. Первый (и самый простой) случай - это отношение взаимно-однозначного соответствия на рисунке 2a. Эта мощность представляет случаи, в которых две соответствующие характеристики соответствуют одному и тому же объекту в действительности.

Рисунок 2. Мощность совпадения для набора данных 1 (зеленый) и набора данных 2 (красный).

Второй случай - это отношение соответствия "один ко многим" (1: m). Этот случай указывает на тот факт, что группа объектов в одном наборе данных при объединении представляет тот же объект, что и один объект в другом наборе данных. Это может произойти, например, когда набор более коротких сегментов дороги соответствует дороге, которая представлена ​​в виде одной линии в другом наборе данных (рис. 2b), или когда дорога представлена ​​в виде одной линии в одном наборе данных, но двумя параллельными линиями (для два направления дороги) в другом. Третий случай кардинальности - соответствие "многие-ко-многим". Это включает двусторонние отношения «один ко многим», в которых соответствие «один ко многим» существует как от набора данных 1 к набору данных 2, так и, в противоположном направлении, от набора данных 2 к набору данных 1. Кроме того, отношение «многие ко многим» case также включает более сложные сопоставления (рис. 2d), в которых ни одна особенность по отдельности не соответствует группе объектов в другом наборе данных. Объекты из двух наборов данных могут представлять один и тот же объект в реальности только после группировки отдельных объектов в каждом наборе данных, соответственно. Некоторые алгоритмы слияния могут обрабатывать только простейшие задачи слияния один-к-одному, в то время как другие могут справляться с более сложными задачами «один-ко-многим» и «многие-ко-многим».

В зависимости от геометрического типа наборов данных были разработаны различные методы сопоставления точечных объектов (например, бюллетеней и достопримечательностей [7]), линий (например, транспортных сетей [8]) и многоугольников (например, контуров зданий, участков, участков переписи населения [ 6]) соответственно.

Чтобы определить отношения между объектами, методы объединения обычно вычисляют определенные показатели сходства или несходства (расстояния) между потенциально связанными объектами. Показатели могут быть основаны на геометрии, атрибутах (например, [7]) и топологических отношениях задействованных функций. Сходство в геометрии - широко используемый показатель, который сравнивает длину, форму и ориентацию двух объектов. Общий метод вычисления геометрической разницы между двумя объектами - это расстояние Хаусдорфа. На рисунке 3 показано вычисление расстояния Хаусдорфа. Для элементов A и B направленное расстояние Хаусдорфа от A до B определяется как:

где - расстояние от точки pA до множества точек B. Направленное расстояние Хаусдорфа равно максимальному отклонению точек объекта A от объекта B. Обратите внимание, что на практике приблизительное расстояние Хаусдорфа часто вычисляется с использованием только вершин функция A (вместо всех точек A) для экономии времени вычислений (рисунок 3b). На рисунке 3 направленные расстояния Хаусдорфа от A до B (рисунок 3b) и от B до A (рисунок 3c) равны 40 и 57 соответственно. Расстояние Хаусдорфа между A и B составляет 57, большее из двух направленных расстояний Хаусдорфа. Если A совпадает с B или является частью B, очевидно. Расстояние Хаусдорфа определяется как максимум и. Он равен нулю только тогда, когда элементы A и B равны друг другу по геометрии. Существуют и другие метрики расстояния для измерения геометрических различий.

Рис. 3. Направленные расстояния Хаусдорфа между парой объектов из двух наборов данных.

Метрики на основе атрибутов сравнивают две функции по общим атрибутам, таким как названия улиц. Это может быть выполнено, например, с использованием расстояний между струнами, таких как расстояние Хэмминга или расстояние Левенштейна. Топологические метрики сравнивают две функции на основе таких свойств, как количество ребер, входящих в узел.

Процесс объединения обычно состоит из двух основных этапов: 1) сопоставление признаков и 2) объединение признаков. Кроме того, для некоторых процедур объединения требуется этап предварительной обработки, например, для настройки расположения функций и этап последующей обработки, например для проверки и исправления результатов сопоставления, сгенерированных компьютером (и при необходимости повторно запустить сопоставление).

4.1. Соответствие функций

Учитывая метрику расстояния (или несходства) между объектами (раздел 3), простая стратегия объединения состоит в том, чтобы сопоставить объекты, которые являются наиболее близкими. Запрос k-ближайших пар (KCPQ) пытается найти k пар объектов, расстояние между которыми является наименьшим [1]. Однако такая стратегия может быть легко нарушена пространственным смещением объектов. В примерах на Рисунке 1. и на обложке можно увидеть, что KCPQ может правильно сопоставить некоторые соответствующие функции, в то время как сопоставлять другие функции неправильно, когда эти функции расположены близко друг к другу, но не представляют один и тот же объект в действительности.

Другой часто используемый метод объединения основан на анализе буфера и анализе наложения. Например, простой буферный метод [3] измеряет сходство двух функций как процентную долю одной функции, которая попадает в буфер другой. Подобно KCPQ на основе расстояния, буферные методы требуют, чтобы данные были хорошо выровнены перед объединением.

Хорошо известный метод «резиновой пленки» был разработан в 1980-х годах для устранения неравномерно распределенных ошибок определения местоположения. Это был один из первых систематических методов объединения, разработанных US Census [9, 11] для объединения данных USGS. Метод выбирает набор совпадающих точек в качестве «якорей» для связывания двух наборов данных таким образом, чтобы каждая треугольная область между точками привязки имела одинаковое пространственное смещение. Затем метод резинового покрытия применяет аффинное преобразование в каждой области, чтобы удалить пространственное смещение, чтобы можно было применить более простой метод, такой как метод буфера. Метод резиновой пленки был расширен исследователями и до сих пор используется во многих инструментах объединения ГИС. В целом, этот метод является полуавтоматическим, что может потребовать значительного вмешательства человека при выборе опорных точек в этом районе.

4.2. Объединение функций

После того, как соотношение соответствия между объектами установлено должным образом, информация из соответствующих объектов может быть объединена в соответствии с предопределенными правилами. Это включает в себя объединение атрибутивной информации и геометрии. Если отношение совпадения является взаимно однозначным, можно объединить информацию об атрибутах, скопировав атрибуты одного объекта в соответствующий объект. Если отношение соответствия - «один ко многим» или «многие ко многим», атрибут необходимо разделить и / или объединить, а затем передать соответствующему объекту. Правило переноса зависит от характера атрибута. Интенсивные атрибуты, такие как плотность населения, могут быть перенесены напрямую, в то время как обширные атрибуты, такие как количество населения, необходимо разделить перед переносом.

Также существуют разные способы объединения геометрий. Если один набор данных имеет стабильно более высокую пространственную точность, можно использовать его геометрию и отбросить геометрию другого набора данных. Если два набора данных имеют одинаковую точность, можно вычислить «среднюю» геометрию между двумя геометриями пары соответствующих объектов. После сопоставления функций и объединения функций может потребоваться оценка точности и качества объединенного продукта путем сравнения с небольшим набором результатов объединения, выполненных людьми-экспертами (т. Е. Наземная истина).

Слияние тесно связано с операциями с базой данных, такими как пространственное соединение. Оба включают объединение информации во входных наборах данных. Однако между этими двумя процессами есть различия. Прежде всего, пространственное соединение - это «локальная» операция, основанная на выборе отдельных пар объектов, удовлетворяющих пространственному условию. Это часто выполняется в два этапа [4]: ​​1) этап фильтрации, на котором потенциально связанные объекты выбираются на основе индексов и ограничивающих прямоугольников, и 2) этап уточнения, на котором проверяются пары кандидатов с использованием условия полного соединения. Для сравнения, слияние может рассматривать более крупный и более сложный пространственный контекст и может учитывать соседние особенности, например при использовании критериев на основе топологии. Во-вторых, объединение может включать в себя преобразование и объединение геометрии входного объекта, что обычно не выполняется во время пространственного объединения.

Объединение геопространственных данных также связано с концепцией объединения данных. В более широком смысле эти два термина иногда используются как взаимозаменяемые, но слияние данных традиционно чаще наблюдается в дистанционном зондировании [10].

Ахмади Э. и Насименто М. А. (2016). Запросы K-ближайших пар в дорожных сетях. 17-я Международная конференция IEEE по управлению мобильными данными (MDM). DOI: 10.1109 / MDM.2016.44

Гудчайлд, М. Ф. (2007). Граждане как сенсоры: мир добровольной географии. GeoJournal, 69(4), 211-221. DOI: 10.1007 / s10708-007-9111-y

Гудчайлд, М. Ф., и Хантер, Г. Дж. (1997). Простая мера точности позиционирования для линейных объектов. Международный журнал географической информатики, 11(3), 299-306. DOI: 10.1080 / 136588197242419

Якокс, Э. Х. и Самет Х. (2007). Техника пространственного соединения. Транзакции ACM в системах баз данных (TODS), 32(1), 7. DOI: 10.1145 / 1206049.1206056

Лей, Т. Л., и Лей, З. (2019). Оптимальное сопоставление пространственных данных для объединения: подход на основе сетевого потока. Транзакции в ГИС. В прессе.

Масуяма, А. (2006). Методы обнаружения явных различий между пространственными мозаиками в разные моменты времени. Международный журнал географической информатики, 20(6), 633-648. DOI: 10.1080 / 13658810600661300

Маккензи, Г., Янович, К., и Адамс, Б. (2014). Взвешенный мультиатрибутный метод сопоставления объектов, созданных пользователем. Картография и географическая информатика, 41(2), 125–137. DOI: 10.1080 / 15230406.2014.880327

Пендяла, Р. М. (2002). Разработка инструментов сопоставления на основе ГИС для интеграции и сопоставления данных.

Розен Б. и Заальфельд А. (1985). Критерии соответствия для автоматического выравнивания. Материалы 7-го Международного симпозиума по компьютерной картографии (Auto-Carto 7).

Руис, Дж. Дж., Ариса, Ф. Дж., Урена, М. А., и Бласкес, Э. Б. (2011). Объединение цифровых карт: обзор процесса и предложение по классификации. Международный журнал географической информатики, 25(9), 1439-1466. DOI: 10.1080 / 13658816.2010.519707

Заальфельд А. (1988). Автоматическое составление карты Conflation. Международный журнал географической информационной системы, 2(3), 217-228.

  • Определите понятие слияния и в каком контексте оно используется.
  • Опишите основные типы проблем слияния.
  • Понять мощность отношения совпадения.
  • Поймите различные критерии, используемые для объединения геопространственных объектов.
  • Реализуйте базовый оператор сопоставления, используя анализ буфера и операцию наложения.
  • Объясните разницу между ручным и автоматическим объединением.
  • Сравните объединение с пространственным объединением, объединением изображений и другими связанными операциями для интеграции данных.
  1. Что такое слияние? Приведите пример приложения ГИС, которое требует объединения.
  2. Каковы преимущества и недостатки автоматического сопоставления по сравнению с ручным сопоставлением?
  3. Получите два набора данных дорожной сети из разных источников и попробуйте написать инструкцию SQL для соединения соответствующих улиц с использованием названий улиц.
  4. Напишите инструкцию SQL (или интерфейс GUI пакета ГИС) для сопоставления с соответствующими дорожными характеристиками на основе анализа буфера и наложения.
  5. Перечислите различные критерии, которые можно использовать для соответствия соответствующим функциям.
  6. Каковы соответствующие функции? Какова мощность отношения совпадения?
  7. В чем разница между слиянием и пространственным объединением?

Обе, Р. О., и Сюй, Л. С. (2015). PostGIS в действии (2-е изд.). Manning Publications Co.


Размышляя о телефонах: новые индексы цен и распределение расходов между устройствами и тарифными планами в разделе "Расходы на личное потребление"

Ана Айскорбе,. Даниэль Э. Зихель, в книге «Измерение экономического роста и производительности», 2020 г.

17.3.1 Индексы согласованной модели

Мы оцениваем как сопоставленные модели, так и гедонистические индексы цен для контроля за изменением качества, хотя мы делаем упор на гедонистические индексы. Подход на основе сопоставленных моделей, наиболее распространенный метод, используемый статистическими агентствами, в своей основной формулировке основывается на изменениях цен с течением времени для конкретных моделей рассматриваемого товара, при этом качество остается постоянным по конструкции, если модели указаны достаточно подробно. Этот подход использует среднее изменение цен для конкретных моделей, а не вычисляет изменение среднего значения цен для разных моделей. Хотя подход согласованной модели идеально исключает влияние изменения качества на цены, этот метод может не работать в случаях, характеризующихся частым входом и выходом из модели по двум причинам. Во-первых, в период входа изменение цены по сравнению с предыдущим периодом недоступно, и, конечно же, в период, следующий за выходом модели, также не может быть изменений цены. Во-вторых, если поступающие модели имеют более низкую цену относительно качества, чем существующие модели, и не приводят к снижению цен на существующие модели - то есть, закон одной (с поправкой на качество) цены не выполняется - до того, как более старая модель уйдет с рынка, улучшение качества, представленное новой моделью, может не отражаться в индексе. Обе проблемы вызывают озабоченность на рынке мобильных телефонов.

Для индексов согласованной модели мы сначала рассматриваем индекс, построенный как невзвешенное геометрическое среднее изменение цен, известный как формула Джевонса. Мы начинаем с невзвешенных индексов, потому что статистические агентства обычно не собирают веса на уровне модели в каждый период. 14 Кроме того, исследователи, оценивающие гедонистические индексы, часто не имеют весов на уровне модели.

Такое отсутствие веса вызывает две проблемы. Во-первых, одни модели, несомненно, представляют большую долю рынка, чем другие, что вызывает особую озабоченность на рынке мобильных телефонов, где на несколько моделей Apple приходится непропорционально большая доля рынка. Во-вторых, относительная важность моделей со временем меняется. Важность вопроса о фиксированных весах в индексах цен была предметом обширных исследований. Вообще говоря, возможность изменения весов с течением времени является предпочтительным подходом, поскольку это позволяет индексу отражать реакцию потребителей на относительные цены и замещение в разных моделях, как обсуждалось в Diewert (1998). Наш второй индекс согласованной модели решает эту проблему. Мы рассчитываем индекс, в котором изменения цен для конкретной модели взвешиваются по среднему значению их доли дохода за два периода, используемых для расчета изменения цен (известная как формула Торнквиста). 15


Рассчитайте расстояние между почтовыми индексами и hellip И пользователями.

Я построил сайт знакомств (давно уже существующий) еще в 2000 году или около того, и одной из проблем было вычисление расстояния между пользователями, чтобы мы могли представить ваши «совпадения» в радиусе X миль. Чтобы просто сформулировать проблему, учитывая следующую схему базы данных (примерно):

ТАБЛИЦА ПОЛЬЗОВАТЕЛЕЙ UserId UserName ZipCode

ТАБЛИЦА ZIPCODE ZipCode Широта Долгота

При объединении USER и ZIPCODE в USER.ZipCode = ZIPCODE.ZipCode.

Какой подход вы бы применили, чтобы ответить на следующий вопрос: какие другие пользователи живут с почтовыми индексами, которые находятся в пределах X миль от почтового индекса данного пользователя.

Мы использовали данные переписи 2000 года, в которых есть таблицы для почтовых индексов и их приблизительной широты и долготы.

Мы также использовали формулу Хаверсина для вычисления расстояний между любыми двумя точками на сфере. на самом деле довольно простая математика.

Вопрос, по крайней мере для нас, 19-летних студентов колледжа, действительно заключался в том, как эффективно вычислять и / сохранять расстояния от всех участников до всех остальных участников. Один из подходов (тот, который мы использовали) заключался бы в импорте всех данных и вычислении расстояния ОТ каждого почтового индекса ДО каждого другого почтового индекса. Затем вы сохраните и проиндексируете результаты. Что-то вроде:

Проблема, конечно, в том, что в таблице ZipDistance будет МНОГО строк. Это не совсем неработоспособное, но действительно большое. Также требуется полная предварительная работа со всем набором данных, что тоже не является неуправляемым, но не обязательно желательным.

Во всяком случае, мне было интересно, какой подход могут использовать некоторые из вас, гуру, к чему-то вроде этого. Кроме того, я думаю, что это распространенная проблема, с которой программисты должны время от времени заниматься, особенно если вы рассматриваете проблемы, которые просто алгоритмически схожи. Я заинтересован в тщательном решении, которое включает как минимум НАМЕКИ по всем частям, чтобы сделать это действительно быстро и эффективно. Спасибо!


Среднее арифметическое - это сумма серии чисел, деленная на количество этой серии чисел.

Если бы вас попросили найти среднее (арифметическое) среднее количество баллов за тест, вы просто сложите все баллы учащихся за тесты, а затем разделите эту сумму на количество учащихся. Например, если пять студентов сдали экзамен и их баллы составили 60%, 70%, 80%, 90% и 100%, среднее арифметическое значение класса будет 80%.

Это будет рассчитываться как:

Причина, по которой мы используем среднее арифметическое для оценок за тесты, заключается в том, что каждая оценка является независимым событием. Если один студент плохо сдает экзамен, шансы следующего студента плохо (или хорошо) сдадут экзамен не пострадают.

В мире финансов среднее арифметическое обычно не является подходящим методом для расчета среднего. Рассмотрим, например, доходность инвестиций. Предположим, вы вложили свои сбережения в финансовые рынки в течение пяти лет. Если бы доходность вашего портфеля каждый год составляла 90%, 10%, 20%, 30% и -90%, какой была бы ваша средняя доходность в этот период?

При среднем арифметическом средняя доходность составила бы 12%, что на первый взгляд кажется впечатляющим, но не совсем точным. Это потому, что когда дело доходит до годовой доходности инвестиций, цифры не являются независимыми друг от друга. Если вы потеряете значительную сумму денег в конкретном году, у вас будет гораздо меньше капитала для инвестирования и получения прибыли в следующие годы.

Нам необходимо рассчитать среднее геометрическое значение доходности ваших инвестиций, чтобы точно измерить вашу фактическую среднегодовую доходность за пятилетний период.


3 ответа 3

Общая формула для одной декады всех резисторов серии Exx (xx = 3 * 2 ^ m, для m = от 0 до 6)

10 ^ (n / xx) для n от 0 до xx-1

означает примерно равное, и даже не всегда правильно округленное! Общее намерение состояло в том, чтобы собрать все резисторы в красивую геометрическую серию, а затем отрегулировать числа до некоторого красивого, небольшого количества значащих цифр и сделать последовательные серии подмножествами друг друга для улучшения складской логистики. К сожалению, это означает, что полученные числа могут располагаться неравномерно. Самое раздражающее (для меня) место, где это происходит, - это серия E24, где часть последовательности идет 1.3, 1.5, 1.6, 1.8.

По мере того, как ряд становится более мелким, количество значащих цифр увеличивается, а это означает, что не все серии являются второстепенными / суперсерийными.

E3, E6, E12 - все подмножества E24, в которых используются две значащие цифры. E48 и E96 - это подмножества E192, в которых используется три.

В то время как более тонкие серии обычно имеют меньшие допуски, допуск на самом деле является экономическим вопросом, вы платите столько, сколько вам нужно.


Это объясняет проницательный совет, предоставленный в комментарии @ttnphns.

Смешение почти коррелированных переменных увеличивает вклад их общего лежащего в основе фактора в PCA. Мы можем видеть это геометрически. Рассмотрим эти данные в плоскости XY, показанной в виде облака точек:

Корреляция мала, ковариация примерно равна, и данные сосредоточены: PCA (независимо от того, как проводился) будет сообщать о двух примерно равных компонентах.

Давайте теперь добавим третью переменную $ Z $, равную $ Y $, плюс небольшое количество случайной ошибки. Корреляционная матрица $ (X, Y, Z) $ показывает это с небольшими недиагональными коэффициентами, за исключением второй и третьей строк и столбцов ($ Y $ и $ Z $):

$ left ( begin 1. & amp -0.0344018 & amp -0.046076 -0.0344018 & amp 1. & amp 0.941829 -0.046076 & amp 0.941829 & amp 1. end right) $

Геометрически мы сместили все исходные точки почти по вертикали, подняв предыдущее изображение прямо из плоскости страницы. Это псевдо-трехмерное облако точек пытается проиллюстрировать подъем с помощью вида сбоку в перспективе (на основе другого набора данных, хотя и сгенерированного таким же образом, как и раньше):

Точки изначально лежат в синей плоскости и приподняты к красным точкам. Исходная ось $ Y $ указывает вправо. Результирующий наклон также растягивает точки вдоль направлений YZ, тем самым удвоение их вклад в дисперсию. Следовательно, PCA этих новых данных по-прежнему идентифицирует два основных основных компонента, но теперь один из них будет иметь вдвое большую дисперсию, чем другой.

Это геометрическое ожидание подтверждается некоторым моделированием в R. Для этого я повторил процедуру «подъема», создав почти коллинеарные копии второй переменной второй, третий, четвертый и пятый раз, назвав их от $ X_2 $ до $ X_5 $. Вот матрица диаграммы рассеяния, показывающая, как эти последние четыре переменные хорошо коррелированы:

PCA выполняется с использованием корреляций (хотя это не имеет особого значения для этих данных) с использованием первых двух переменных, затем трех,. и наконец пять. Я показываю результаты, используя графики вкладов основных компонентов в общую дисперсию.

Первоначально для двух почти некоррелированных переменных вклады почти равны (верхний левый угол). После добавления одной переменной, коррелированной со второй - точно так же, как на геометрической иллюстрации - остаются только два основных компонента, один теперь в два раза больше другого. (Третий компонент отражает отсутствие идеальной корреляции - он измеряет «толщину» блиноподобного облака на трехмерной диаграмме рассеяния.) После добавления еще одной коррелированной переменной ($ X_4 $) первый компонент теперь составляет около трех четвертей от Итого после добавления пятой части первый компонент составляет почти четыре пятых от общей суммы. Во всех четырех случаях компоненты после второго, вероятно, будут считаться несущественными большинством диагностических процедур PCA; в последнем случае возможно, что некоторые процедуры сделают вывод, что существует только один стоит задуматься о главном компоненте.

Теперь мы видим, что может быть заслуга в отказе от переменных, которые, как считается, измеряют один и тот же лежащий в основе (но «скрытый») аспект набора переменных., потому что включение почти избыточных переменных может привести к тому, что PCA будет переоценивать их вклад. Ничего нет математически правильно (или неправильно) о такой процедуре - это суждение, основанное на аналитических целях и знании данных. Но должно быть совершенно ясно, что отбрасывание переменных, о которых известно, что они сильно коррелированы с другими, может существенно повлиять на результаты PCA.

Я буду дальше иллюстрировать тот же процесс и идея, что и @whuber, но с графиками загрузки, потому что загрузки являются сутью результатов PCA.

Вот три 3 анализа. В первом у нас есть две переменные, $ X_1 $ и $ X_2 $ (в этом примере они не коррелируют). Во втором мы добавили $ X_3 $, который является почти копией $ X_2 $ и поэтому сильно коррелирует с ним. В третьем мы так же добавили еще 2 «копии»: $ X_4 $ и $ X_5 $.

Затем идут графики нагрузок первых 2-х основных компонентов. Красные пики на графиках говорят о корреляциях между переменными, так что группа из нескольких пиков - это то место, где находится кластер сильно коррелированных переменных. Компоненты показаны серыми линиями. Относительная «сила» компонента (его относительная величина собственного значения) задается весом линии.

Можно наблюдать два эффекта добавления «копий»:

  1. Компонент 1 становится все сильнее и сильнее, а Компонент 2 все слабее и слабее.
  2. Ориентация компонентов меняется: сначала Компонент 1 находился посередине между $ X_1 $ и $ X_2 $, поскольку мы добавили $ X_3 $ в $ X_2 $. Компонент 1 немедленно переориентировался, чтобы следовать за появляющейся связкой переменных, и вы можете убедитесь, что после того, как мы добавили еще две переменные к группе, присоединение Компонента 1 к этой группе тесно коррелированных переменных стало более бесспорным.

Я не буду повторять мораль, потому что @whuber уже сделал это.

Добавление. Ниже приведены некоторые изображения в ответ на комментарии @whuber. Речь идет о различии между «переменным пространством» и «предметным пространством» и о том, как компоненты ориентируются здесь и там. Представлены три двумерных PCA: первая строка анализирует $ r = 0 $, вторая строка анализирует $ r = 0,62 $ и третья строка $ r = 0,77 $. Левый столбец - это диаграммы рассеяния (стандартизованных данных), а правый столбец - это графики загрузки.

На диаграмме рассеяния корреляция между $ X_1 $ и $ X_2 $ отображается как продолговатость облака. Угол (его косинус) между линией компонента и линией переменной - это соответствующий собственный вектор элемент. Собственные векторы идентичны во всех трех анализах (поэтому углы на всех трех графиках одинаковы). [Но это правда, что при $ r = 0 $ точно, собственные векторы (и, следовательно, углы) теоретически произвольны, потому что облако идеально "круглое", любая пара ортогональных линий, проходящих через начало координат, может служить двумя компонентами, - даже сами линии $ X_1 $ и $ X_2 $ могут быть выбраны в качестве компоненты.] Координаты точек данных (200 субъектов) на компоненте являются оценками компонентов, а их сумма квадратов, разделенных на 200-1, является оценкой компонента. собственное значение.

На графике загрузки точки (векторы) - это переменные, которые распространяют пространство, которое является 2-мерным (потому что у нас есть 2 точки + начало координат), но на самом деле представляет собой уменьшенное 200-мерное (количество субъектов) «предметное пространство». Здесь угол (косинус) между красными векторами равен $ r $. Векторы равны единичной длины, потому что данные были стандартизированы. The first component is such a dimension axis in this space which rushes towards the overal accumulation of the points in case of just 2 variables it is always the bisector between $X_1$ and $X_2$ (but adding a 3rd variable can deflect it anyhow). The angle (cosine) between a variable vector and a component line is the correlation between them, and because the vectors are unit lenght and the components are orthogonal, this is nothing else than the coordinates, the loading. Sum of squared loadings onto the component is its eigenvalue (the component just orients itself in this subject space so as to maximize it)

Addition2. В Addition above I was speaking about "variable space" and "subject space" as if they are incompatible together like water and oil. I had to reconsider it and may say that - at least when we speak about PCA - both spaces are isomorphic in the end, and by that virtue we can correctly display all the PCA details - data points, variable axes, component axes, variables as points, - on a single undistorted biplot.

Below are the scatterplot (variable space) and the loading plot (component space, which is subject space by its genetic origin). Everything that could be shown on the one, could also be shown on the other. The pictures are identical, only rotated by 45 degrees (and reflected, in this particular case) relative each other. That was a PCA of variables v1 and v2 (standardized, thus it was р that was analyzed). Black lines on the pictures are the variables as axes green/yellow lines are the components as axes blue points are the data cloud (subjects) red points are the variables displayed as points (vectors).


This article has earned Open Data and Open Materials badges. Data and materials are available at https://doi.org/10.5061/drvad.r7sqv9sb6

Data on Baltic sea are publicly available under http://ices.dk/data/Documents/ENV/, (ICES CEIM), Data on the global ecosystems are available under https://dataportal.lifewatchitaly.eu/data, (LifeWatch ERIC). The original and compiled datasets are also available on DataDryad.org under https://doi.org/10.5061/dryad.r7sqv9sb6.

Обратите внимание: издатель не несет ответственности за содержание или функциональность любой вспомогательной информации, предоставленной авторами. Любые запросы (кроме отсутствующего контента) следует направлять соответствующему автору статьи.


Смотреть видео: Сможете ли вы посчитать периметр каждой из этих двух фигур? (September 2021).