Более

Как преобразовать свойства слоя из ПОЛИГОНА в МУЛЬТИПОЛИГОН?


Как преобразовать элементы слоя из ПОЛИГОНА в МУЛЬТИПОЛИГОН? Я знаю, как это сделать с помощью функции postgis ST_Multi, но как я могу сделать то же самое для слоя в QGIS?


Если вы хотите сделать это на основе поля, вы можете сделать это в QGIS из меню: Vector -> Geometry Tools -> Singleparts to Multipart (требуется как минимум два poylgons для совместного использования указанного вами атрибута).

В OGR есть более прямой эквивалент ST_Multi. Я не нашел способа получить доступ к этой конкретной функции OGR через QGIS, но это можно было сделать с помощью GDAL / OGR следующим образомogr2ogr -nlt МУЛЬТИПОЛИГОН multipolygon_output.shp polygon_input.shpБолее подробная информация о переключателе -nlt доступна на странице ogr2ogr.


Пока вы все еще ждете простого решения QGIS, вы можете посмотреть, как оно работает с OpenJUMP, через контекстное меню:


R как ГИС для экономистов

Здесь мы узнаем, как строятся разные типы sfg. Мы также узнаем, как создавать sfc и sf из sfg с нуля. 37

2.2.1 Простая геометрия элемента (sfg)

Пакет sf использует класс объектов sfg (простая геометрия пространственных объектов) для представления геометрии одного геометрического объекта (например, города в виде точки, реки в виде линии, округа и школьного округа в виде многоугольников). Существуют разные типы sfg. Вот несколько примеров типов характеристик, с которыми мы обычно сталкиваемся как экономисты 38:

  • ТОЧКА: объект без площади, представляющий точку (например, колодец, город, сельхозугодья).
  • ЛАЙНЕСТРИНГ: (например, приток реки)
  • МУЛЬТИЛИНЭСТРИНГ: (например, река с более чем одним притоком)
  • ПОЛИГОН: геометрия с положительной площадью (например, округ, штат, страна).
  • МУЛЬТИПОЛИГОН: набор полигонов для представления одного объекта (например, страны с островами: США, Япония)

ТОЧКА - это простейший тип геометрии, который представлен вектором из двух 39 числовых значений. Пример ниже показывает, как объект POINT может быть создан с нуля:

Функция st_point () создает объект POINT, когда ему передается вектор из двух числовых значений. Если вы проверите класс вновь созданного объекта,

вы можете видеть, что это действительно объект POINT. Но это также объект sfg. Итак, a_point - это объект sfg типа POINT.

Объекты LINESTRING представлены последовательностью точек:

s1 - матрица, в которой каждая строка представляет точку. Применяя функцию st_linestring () к s1, вы создаете объект LINESTRING. Посмотрим, как выглядит линия.

Как видите, каждая пара последовательных точек в матрице соединена прямой линией, образуя линию.

ПОЛИГОН очень похож на ЛАЙНЕСТРИНГ тем, как он представлен.

Как и объект LINESTRING, который мы создали ранее, POLYGON представлен набором точек. Самая большая разница между ними в том, что нам нужно иметь некоторую положительную область, ограниченную линиями, соединяющими точки. Для этого у вас есть одна и та же точка для первой и последней точек, чтобы замкнуть цикл: здесь это c (0,0). В ПОЛИГОНЕ может быть дыра. Первая матрица списка становится внешним кольцом, а все последующие матрицы будут дырами во внешнем кольце.

Аналогичным образом можно создать объект MULTIPOLYGON. Единственное отличие состоит в том, что вы предоставляете список списков матриц, каждый внутренний список которого представляет собой многоугольник. Пример ниже:

Каждый из списка (p1, p2), списка (p3, p4), списка (p5) представляет собой многоугольник. Вы предоставляете список этих списков функции st_multipolygon (), чтобы создать объект MULTIPOLYGON.

2.2.2 Создание столбца списка геометрии простых объектов (sfc) и простых объектов (sf) с нуля

Чтобы создать простой столбец-список геометрии объектов (sfc), вы можете просто предоставить список sfg функции st_sfc () следующим образом:

Чтобы создать объект sf, вы сначала добавляете sfc в качестве столбца в data.frame.

На данный момент это еще не признано R как НФ.

Вы можете зарегистрировать его как объект sf, используя st_as_sf ().

Как видите, sf_ex теперь распознается также как объект sf.

Самостоятельное создание пространственных объектов с нуля - ненужный навык для многих из нас, экономистов. Но все же хорошо знать основную структуру данных. Также иногда возникает необходимость. Например, мне пришлось конструировать пространственные объекты с нуля, когда я разрабатывал рандомизированные испытания азота на ферме. В таких случаях, конечно, необходимо понимать, как строятся различные типы sfg, создавать sfc из коллекции sfg, а затем создавать sf из sfc.

Вы вряд ли увидите другие типы геометрии: MULTIPOINT и GEOMETRYCOLLECTION. Вы можете увидеть GEOMETRYCOLLECTION после пересечения двух пространственных объектов. Вы можете посмотреть здесь, если вам интересно узнать, что они из себя представляют.


R как ГИС для экономистов

Здесь мы обсуждаем способы распараллеливания процесса извлечения значений из многих многослойных растровых файлов.

6.2.1 Наборы данных

Мы будем использовать следующие наборы данных:

  • растр: ежедневные данные PRISM с 2010 по 2019 год с разбивкой по месяцам
  • полигоны: Регулярные полигональные сетки над Айовой.

суточное количество осадков PRISM с 2010 по 2019

Вы можете скачать все файлы призм здесь. Для тех, кто заинтересован в том, чтобы научиться генерировать серию ежедневных файлов данных PRISM, сохраняемых по месяцам, см. Код в разделе 9.3.

Округа США

6.2.2 Непараллельное извлечение

В главе 5.3 мы уже узнали, что извлечение значений из составных растровых слоев происходит быстрее, чем извлечение значений из нескольких однослойных наборов растровых данных по одному. Здесь наборы данных о суточных осадках сгруппированы по годам и месяцам и сохранены в виде многослойных файлов GeoTIFF. Например, PRISM_ppt_y2009_m1.tif хранит ежедневные данные об осадках за январь 2009 г. Это время, необходимое для извлечения значений для округов США из ежедневных данных об осадках PRISM за месяц.

Теперь, чтобы обработать все данные об осадках за 2009-2018 гг., В этом разделе мы рассмотрим два подхода:

  1. распараллеливать по полигонам и делать регулярный цикл в течение года за месяцем
  2. распараллеливать год за месяцем

6.2.3 Подход 1: распараллеливание по полигонам и регулярный цикл в течение года за месяцем

Для этого подхода давайте измерим время, затрачиваемое на обработку одного набора данных PRISM за год, а затем угадаем, сколько времени потребуется для обработки наборов данных PRISM за 120 лет и месяцев.

Ладно, такой подход не особо помогает. Если нам нужно обрабатывать ежедневные данные PRISM за 10 лет, это займет примерно 167,39 минуты.

6.2.4 Подход 2: распараллеливание по временному измерению (год-месяц)

Вместо того, чтобы распараллеливать многоугольники, давайте будем распараллеливать по времени (год-месяц). Для этого мы сначала создаем data.frame, в котором есть все комбинации года и месяца, над которыми мы будем работать.

Следующая функция извлекает данные из одного случая год-месяц:

Затем мы параллельно перебираем строки month_year_data.

Прошло 7,52 минуты. Итак, подход 2 - явный победитель.

6.2.5 Учет памяти

До сих пор мы не обращали внимания на объем памяти, занимаемый распараллеливаемыми процессами. Но это очень важно при распараллеливании многих больших наборов данных. Подходы 1 и 2 существенно различаются по своим следам памяти.

Подход 1 делит полигоны на группу полигонов и распараллеливает группы при извлечении значений растра. Подход 2 извлекает и сохраняет растровые значения для 15 полигонов США. Итак, подход 1 явно требует меньшего объема памяти. Подход 2 использовал около 40 ГБ памяти компьютера, что почти полностью исчерпало 64 ГБ оперативной памяти моего компьютера (в то время не только R или C ++ потребляют оперативную память). Если вы не превысите лимит, ничего страшного. Подход 2 определенно лучший вариант для меня. Однако, если бы у меня было 32 ГБ оперативной памяти, подход 2 значительно снизил бы производительность, а подход 1 - нет. Или, если бы в растровых данных было вдвое больше ячеек с одинаковой пространственной протяженностью, то Подход 2 понес бы значительную потерю производительности, а Подход 1 - нет.

Легко придумать случай, когда подход 1 предпочтительнее. Например, предположим, что у вас есть несколько растровых слоев по 10 Гбайт, а у вашего компьютера 16 Гб оперативной памяти. Тогда подход 2 явно не работает, и подход 1 - ваш единственный выбор, что лучше, чем вообще не распараллеливать.

Таким образом, позволяя каждому ядру обрабатывать больший объем данных, вы должны быть осторожны, чтобы не превысить лимит оперативной памяти вашего компьютера.


Открытие знаний в поиске пространственной картографической информации.

КАТАЛОГИ БИБЛИОТЕК ДЛЯ КОЛЛЕКЦИЙ КАРТ в большинстве библиотек развиты недостаточно хорошо. Источник картографической информации отличается от других видов информации тем, что обычно имеет прямоугольную форму и определяется координатами четырех углов карты. Эта информация о координатах оказывается трудной для использования многими людьми, если не разработан определенный пользовательский интерфейс и не реализованы алгоритмы обнаружения знаний. Система с таким интерфейсом и алгоритмами может выполнять мощные запросы, которые обычная текстовая система поиска информации не может. В этой статье описывается прототип системы - GeoMatch - который позволяет пользователям в интерактивном режиме определять интересующие географические области на фоновой карте. Это также позволяет пользователям определять, качественно или количественно, взаимосвязь между определяемой пользователем областью и покрытием карты. Фактор обнаружения знаний в базе данных (KDD) анализируется в процессе поиска. Были опрошены три библиотекаря, чтобы изучить возможности новой системы. Формат записи MARC также обсуждается, чтобы доказать, что преобразование записей картографических материалов из существующей системы онлайн-каталогов библиотеки в GeoMatch может быть выполнено автоматически.

Обнаружение знаний в базах данных (KDD) стало горячей темой в последние годы. Метод KDD использовался в различных областях, включая пространственный анализ баз данных (Xu et al., 1997), автоматическую классификацию (Bell, 1998), обнаружение отклонений (Schmitz, 1990) и кластеризацию (Cheesman, 1996). В этой статье исследуется использование KDD в поиске информации путем изучения природы и процесса поиска географической информации. В нем рассматриваются характеристики географических информационных систем (ГИС), библиографических записей для картографической информации и основанной на ГИС системы поиска картографической информации - GeoMatch.

ГИС И ФУНКЦИИ, СВЯЗАННЫЕ С СИСТЕМОЙ ПОЛУЧЕНИЯ ИНФОРМАЦИИ НА ОСНОВЕ ГИС

Институт исследования экологических систем (ESRI) - крупнейший в мире производитель программного обеспечения для ГИС. ESRI определяет ГИС в своем меню (Институт исследований экологических систем, 1991) как: «Организованный набор компьютерного оборудования, программного обеспечения, географических данных и персонала, предназначенный для эффективного сбора, хранения, обновления, обработки, анализа и отображения всех форм географических данных. справочная информация ". Большинство слов в этом определении можно найти в определениях многих других информационных систем. Особенностью ГИС является термин «данные с географической привязкой». ГИС использует пространственное местоположение как основное звено для организации информации и управления ею.

Типичная ГИС имеет два основных функциональных компонента - систему управления базой данных, которая хранит данные и управляет ими, и пространственный механизм, который выполняет специальные топологические операции с географическими объектами. Распространенное заблуждение, что ГИС - это просто компьютерный картограф. ГИС - это мощный аналитический инструмент, который намного сложнее, чем картограф. Это правда, что некоторые продукты ГИС на рынке упрощены для наивных пользователей ГИС для создания, просмотра и печати карт. Эти «средства просмотра» / пакеты программного обеспечения часто поддерживают только ограниченные функции манипулирования данными. Они не считаются полностью функциональными системами ГИС. ГИС может выполнять сетевой анализ, наложение, буферизацию и многие другие операции, которые могут выполнить немногие другие информационные системы. Как резюмировал Берроу (1990), ГИС может ответить на такие вопросы, как:

* Где находится 785 S. Allen Street в Олбани, Нью-Йорк?

* В каком переписном листе находится указанный выше адрес?

* Сколько супермаркетов находится в пределах трех миль от указанного выше адреса?

* Грузовик доставки должен доставить товары 200 клиентам. Каков самый короткий маршрут и последовательность доставки? Если доступна информация о дорожном движении, каков самый быстрый маршрут для выполнения задачи?

* Учитывая численность населения округа, какова плотность населения? (ГИС может точно рассчитать площадь округа).

* В городе будет построен новый торговый центр. Торговый центр должен быть построен по крайней мере в пяти милях от существующих торговых центров рядом с главной улицей, в окружении 5000 жителей в пределах четырех миль и не более чем в десяти милях от центра города. Где лучше всего построить новый торговый центр?

Есть много других вопросов, на которые может ответить только ГИС. Одна из функций ГИС, которая тесно связана с системой поиска географической информации, - это наложение. Чтобы понять процесс наложения, необходимо определить некоторые концепции.

В ГИС многоугольник - это замкнутая область, ограниченная линиями, такими как переписной участок или округ. Следовательно, у полигонов есть площади и параметры, которые может вычислить ГИС. Слой или тема - это концепция одной карты объектов в ГИС. Например, карта округа Флориды, показывающая средний возраст населения, представляет собой многоугольный слой. Эти одноэлементные слои могут быть интегрированы в ГИС для анализа.

ГИС имеет возможность построения геометрической топологии. Он может определить, какие линии пересекаются, чтобы создать узел в точке пересечения. Он может определить, какие линии соединены, чтобы создать замкнутый многоугольник. Затем ГИС может создать полигональный объект с такими функциями, как площадь и параметр. Топология в ГИС может быть выражена как взаимосвязь точек, линий и многоугольников. ГИС может выполнять сложный пространственный анализ после того, как топология установлена.

Процесс объединения нескольких слоев называется наложением, это уникальная функция ГИС. Например, предположим, что на прозрачных пленках напечатаны две карты - карта переписных участков и карта озера, все в одном округе. Если обе карты имеют одинаковый масштаб и четыре угла на двух картах представляют одни и те же места, две прозрачные пленки можно объединить, чтобы создать новую карту - с границами округов и берегом озера. Новая карта - это так называемый оверлей. ГИС очень мощно выполняет эту операцию. Он может накладывать карты с различными типами объектов (точки, линии, полигоны) и разрабатывать новые топологии для дальнейшего анализа. Берроу (1990) перечисляет сорок четыре вида возможностей анализа наложения, которыми может обладать ГИС. Рисунок 1 демонстрирует процесс наложения. Первый слой карты показывает границы школьных округов (округ C и округ D). Второй слой карты представляет границы округов (округ A и округ B). В процессе наложения ГИС объединяет объекты из обоих слоев карты в третий слой, содержащий четыре полигона. В третьем слое карты каждый многоугольник будет иметь атрибуты как из слоя карты округа, так и из слоя карты школьного округа. Например, область 1 будет иметь свою площадь, параметр, название округа A, название школьного округа C и другие данные, ранее сохраненные в двух слоях карты. Очевидно, было бы сложно интегрировать данные школьного округа и данные округа, подобные этой, используя только методы баз данных, потому что собранные данные относятся к разным областям.

[Рис. 1 ИЛЛЮСТРАЦИЯ ОПЕЧЕНО]

ОБНАРУЖЕНИЕ ЗНАНИЙ В БАЗАХ ДАННЫХ И ПОЛУЧЕНИЕ ИНФОРМАЦИИ

Из-за менее дорогостоящего хранения данных и увеличения вычислительной мощности объем данных, собираемых различными организациями, быстро увеличивался. Такое огромное количество данных, часто хранящихся в отдельных наборах данных, затрудняет поиск нужной информации. С другой стороны, мощность компьютеров также позволяет интегрировать наборы данных, компилировать факты и преобразовывать информацию в «набор связанных выводов» (Trybula, 1997). Вот почему KDD получил такое внимание как в академическом, так и в коммерческом мире. По словам Тужилина (1997), количество статей, представленных на семинаре по открытию знаний, увеличилось с 40 в 1993 году до 215 в 1996 году.

Файяд, Пятецкий-Шапиро и Смит (1996) определяют KDD как «нетривиальный процесс выявления достоверных, новых, потенциально полезных и в конечном итоге понятных шаблонов данных» (стр. 2). Как резюмировал Трибула (1997), методы оценки данных включают в себя алгоритмы, определение ассоциаций, изменений и отклонений, визуализацию и шестнадцать других аналитических методов. Независимо от того, какой метод используется, ключевым моментом KDD является открытие новых, полезных и понятных знаний.

Поиск информации можно просто выразить как процесс сопоставления - сопоставление потребности пользователя в информации с источником информации (Школа информационных исследований, 1998). В этом процессе пользователь должен точно выразить свою потребность в информации, чтобы система могла получить эту информацию. С другой стороны, источники информации должны быть организованы таким образом, чтобы наиболее важные атрибуты, такие как название, автор, тематические термины, ключевые слова, год публикации и т. Д., Были легко доступны.

Системы поиска текстовой информации стали более мощными за последние три десятилетия. Эффективность и результативность поиска были значительно улучшены за счет логических операторов, усечения, близости, вероятностного поиска и многих других механизмов поиска. Однако некоторые атрибуты в библиографических записях могут затруднить точное соответствие при поиске. Некоторые атрибуты даже трудны для понимания пользователями. Например, географические координаты являются атрибутами в записях MARC для картографических данных. Немногие пользователи захотят или смогут вводить точные числа, соответствующие этим координатам. Еще меньше людей знали бы, что означают эти числа. Однако, несмотря на эти трудности, могут ли координаты быть полезными при поиске информации? Могут ли они быть обработаны, чтобы предоставить понятные и полезные знания при отборе соответствующей информации?

В этой статье будет продемонстрирован прототип системы поиска картографической информации на основе ГИС и показано, как такая система действительно может генерировать новые и полезные знания в процессе поиска.

ПОЛУЧЕНИЕ КАРТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ

Поиск картографической информации в библиотеках

Точка доступа определяется как «имя, термин, код и т. Д., По которым библиографическая запись может быть найдена и идентифицирована» (Глоссарий, 1995). Обычная система поиска информации обычно имеет общие точки доступа, такие как автор, заголовок, ключевые слова, предметные заголовки, классификационный номер и информация из других специальных полей.

В дополнение к пространственному охвату источник картографической информации, такой как карта на одном листе, обладает большинством атрибутов, присущих другим источникам информации, включая заголовок и предметные термины. Источник картографической информации отличается от других форматов тем, что как информационный контейнер он обычно имеет форму прямоугольника и содержит координаты четырех углов карты. Тем не менее, большинство современных поисковых систем не используют географические координаты в качестве точек доступа, потому что это не имеет смысла в системе поиска текстовой информации. Многие библиотеки все еще находятся в процессе ретроспективного преобразования карточных каталогов в текстовые онлайн-каталоги для своих коллекций карт. Чтобы изучить возможность внедрения в библиотеках системы поиска картографической информации на основе ГИС, в двух библиотеках Таллахасси, Флорида, были проведены длительные интервью с тремя библиотекарями.

Во время каждого интервью демонстрировался прототип системы поиска картографической информации на основе ГИС (GeoMatch). Библиотекарей попросили ответить на вопросы, касающиеся коллекции карт библиотеки, потребностей пользователей, средств поиска и процедур поиска. Библиотекарей также попросили оценить удобство использования прототипа программного обеспечения и полезность системы.

Большая часть коллекции карт в Государственной библиотеке Флориды состоит из исторических карт. Хотя библиотека в настоящее время передает каталогизацию карт на аутсорсинг организации, связанной с OCLC, каталог карт по-прежнему является основным инструментом поиска для коллекции карт. Библиотека добавила в свой онлайн-каталог всего 800 карт. В онлайн-каталоге реализован поиск по ключевым словам, который дает больше возможностей для поиска, чем карточный каталог. Каталог карточек позволяет осуществлять поиск только по автору, названию и тематике. Во время интервью библиотекари указали, что они видели больше посетителей, использующих каталог с момента внедрения онлайн-версии.

Библиотека пока не планирует оцифровывать (сканировать) карты. Посетители обычно не могут найти нужные карты с помощью карточного каталога. Некоторые посетители могут найти свои карты с помощью онлайн-каталога с поиском по ключевым словам. Вообще говоря, посетители в первую очередь полагаются на библиотекарей карт, чтобы найти и получить доступ к картам.

Хотя система онлайн-каталогов не может обеспечить достаточную помощь для доступа к картографической информации, каждый день многие пользователи карт выполняют поиск на исторических картах, картах железных дорог и географических названиях. Следует в большой степени полагаться на знания и опыт библиотекарей карт.

БИБЛИОТЕКА ФЛОРИДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Библиотека Университета штата Флорида (БСС) имеет коллекцию из 165 000 карт на одном листе, включая карты Геологической службы США, дорожные карты, карты городов, тематические карты и исторические карты. Записи для большинства карт на одном листе хранятся в каталоге карт. Библиотекари приступили к ретроспективному преобразованию записей каталога карт карты в записи онлайн-каталога с помощью OCLC. По словам библиотекаря карт, большинство записей можно найти в базе данных OCLC. В процессе преобразования библиотекарь должен внести незначительные изменения перед добавлением записей OCLC в онлайн-каталог библиотеки.

Библиотекари обслуживают множество пользователей карт каждый день, включая преподавателей, студентов и пользователей, привлеченных другими библиотеками. Библиотекари карт хорошо знакомы с коллекцией карт и обычно могут найти необходимые карты. Ситуация в библиотеке бывшего СССР аналогична ситуации в библиотеке штата Флорида - то есть библиотекари карт являются наиболее ценным источником информации, учитывая тот факт, что система каталогов для картографических данных не очень полезна.

Таким образом, библиотекари карт в обеих библиотеках являются наиболее важными источниками информации для пользователей, ищущих картографические данные.

Обе библиотеки находятся в процессе преобразования картографических записей из карточного каталога в онлайн-каталог. Онлайн-каталог с возможностью поиска привел к более широкому использованию карт.

Хотя большинство пользователей могут получить доступ к необходимой им картографической информации с помощью библиотекарей, эту ситуацию необходимо улучшить по нескольким причинам. Во-первых, библиотекари карт не уверены, действительно ли они находят карты, которые лучше всего соответствуют потребностям пользователей. Во-вторых, никто из библиотекарей не думает, что сможет предоставить полный список карт, которые могут быть интересны пользователям, особенно в библиотеке с более чем 100 000 карт. Наконец, поиск нужной информации в такой системе во многом зависит от человеческого опыта. Как сказал один библиотекарь: «Это во власти библиотекаря, сможет ли пользователь получить удовлетворительный ответ». Если нынешние библиотекари карт покинут свои должности, новым библиотекарям карты потребуются годы, чтобы ознакомиться с коллекцией библиотеки. Существует большой спрос на мощный инструмент поиска по коллекции карт библиотеки.

ИССЛЕДОВАНИЯ ИНСТРУМЕНТОВ ПОИСКА ГЕО

Обзор литературы показывает, что были созданы более совершенные системы поиска картографической информации, предназначенные для поиска на электронных картах, которые все еще находятся в процессе доработки. Александрийский проект, вероятно, самая известная электронная библиотечная система, занимающаяся топологическими отношениями.

Смит (1996) описал цель цифровой библиотеки Александрийского проекта (ADL) как «создать распределенную цифровую библиотеку (DL) для материалов с географической привязкой. материалы, от карт и изображений до текста и мультимедиа, с точки зрения географической привязки »(http://www.dlib.org/dlib.org/dlib/march96/briefings/smith/ 03smith.html).

Подгруппа Alexandria Atlas исследует «дизайн и функциональность атласа, который будет поддерживать графический / географический доступ к библиотечным материалам» (http://wwww.alexandria.ucsb.edu/public-documents/ Annual-report97 / node28.html # SECTION00051300000000000000 ). Как указано на веб-сайте Александрии, «пространственный поиск не был доступной услугой для клиентов библиотеки, и совсем не ясно, как клиенты ADL будут реагировать на наличие реальных пространственных данных, доступных через Интернет» (http: // www.alexandria. ucsb.edu/public-documents/annual-r port97 / node28.html # SECTION00051300000000000000). Команда изучает такие вопросы, как масштаб, регистрация данных, представление результатов поиска и нечеткие следы.

Система Александрии поддерживает географический просмотр и поиск с помощью графического интерфейса карты. Пример интерфейса можно найти по адресу & lthttp: //www.dlib.org/dlib/march96/briefings/smith/ 03smith.html & gt. Пользователи могут увеличивать и уменьшать масштаб текущего изображения карты. Они могут выбрать элементы карты, которые они хотят видеть на фоновой карте, например границы и реки. Пользователи также могут выбрать интересующую область и режим ПЕРЕКРЫТИЯ КОНТЕЙНОВ. Обзор системы доступен на & lthttp: //www.alexandria.ucsb.edu/adljigi/tutorials/ walkthrough1 / walkthrou & gt.

Прототип GeoMatch имеет несколько новых функций в дополнение к тем, которые доступны в системе Александрия. Инициатива тестирования GeoMatch состоит в том, чтобы ответить на следующие два вопроса: (1) может ли инструмент поиска на основе ГИС / графики, такой как проект Александрии, использоваться для неэлектронных картографических коллекций в библиотеках? и (2) какие новые функции могут быть разработаны для улучшения инструмента поиска на основе ГИС?

GEO-MATCH - ИНСТРУМЕНТ ПОИСКА, КОТОРЫЙ ПОИСК

На рисунке 2 показан экран запроса системы Geo-Match. Помимо указания обычных информационных потребностей, таких как год, название, издатель, ключевое слово и т. Д., Эта система позволяет пользователю интерактивно идентифицировать интересующую область с помощью мыши. Он также просит пользователя указать топологическую взаимосвязь между покрытием карты и выбранной пользователем областью. Система допускает сдерживание и перекрывающиеся отношения, как это резюмировано Коббом и Петри (1998). Есть два возможных отношения включения: выбранная пользователем область полностью попадает в область покрытия карты или покрытие карты попадает в область, выбранную пользователем. Пользователи могут сделать выбор.

[Рис. 2 ИЛЛЮСТРАЦИЯ ОПРЕДЕЛЕНА]

Если пользователь решает выбрать взаимосвязь перекрытия, становится доступным больше вариантов для количественного определения степени перекрытия. Эта степень включает процент перекрывающейся области на картах и ​​процент перекрывающейся области в выбранной пользователем области. Если пользователь выбирает 85 процентов в качестве критерия перекрытия в выбранной пользователем области, пользователь найдет карты, покрывающие большую часть интересующей области (рисунок 3). Если пользователь выбирает 85 процентов в качестве критерия перекрытия в покрытии карты, пользователь найдет карты, которые сконцентрированы на выбранной области (рисунок 4). Пользователи могут указать, как следует оценивать результаты поиска в зависимости от степени совпадения.

[Рисунки 3-4 ИЛЛЮСТРАЦИЯ ОПРЕДЕЛЕНА]

Ключевыми особенностями прототипа являются его способность интерактивно определять интересующую область, т. Е. Количественно определять взаимосвязь между определяемой пользователем областью и покрытием карты, а также ранжировать результаты поиска на основе степени перекрытие.

ИСПОЛЬЗОВАНИЕ ГРАФИКИ ДЛЯ ВЫРАЖЕНИЯ НЕОБХОДИМОСТИ ИНФОРМАЦИИ

Картографическая информация имеет географическую привязку - она ​​представляет местоположения и области на Земле. Обычное представление информации с использованием текста и символов не очень полезно для описания информации, включенной в карту, поскольку в область включено слишком много географических объектов. Например, карту железных дорог Флориды можно проиндексировать с помощью ключевых слов «железная дорога» и «Флорида». Однако карта также включает все железные дороги в каждом округе Флориды. Это указывает на строительство железной дороги в районе Джексонвилля и демонстрирует железную дорогу возле озера xxx. Практически невозможно проиндексировать все географические названия, входящие в область. Когда пользователь рисует рамку, чтобы указать интересующую область, запрошенная информация потребует много слов для ее описания. Графический интерфейс может скрыть номера координат и представить их в масштабируемой графике, что значительно упрощает пользователям поиск интересующих картографических информационных ресурсов.

В дополнение к проблеме представления информации, обсуждавшейся ранее, графический интерфейс также позволяет избежать проблем для пользователей, когда происходят изменения в названиях мест и границ округов или когда они просто не знают точное название, чтобы начать поиск.

УРОВЕНЬ 1 В KD - КАЧЕСТВЕННОЕ ОПРЕДЕЛЕНИЕ ТОПОЛОГИЧЕСКИХ ВЗАИМООТНОШЕНИЙ МЕЖДУ ОПРЕДЕЛЕННОЙ ПОЛЬЗОВАТЕЛЕМ ОБЛАСТЬЮ И ПОКРЫТИЕМ КАРТЫ

Как обсуждалось ранее, проект «Александрия» может качественно определять топологические отношения между определяемой пользователем областью и покрытием карты в своей электронной системе поиска картографической информации. Этот процесс сопоставления выходит за рамки точного сопоставления в обычной системе поиска информации. Компьютерная система вычислит топологическую взаимосвязь между определяемой пользователем областью и охватом карт, чтобы определить, перекрываются ли они или одна полностью содержит другую.

Кобб и Петри (1998) представили модель для определения и представления бинарных топологических и направленных отношений между двумерными объектами. Такие отношения можно использовать для нечетких запросов. Кобб и Петри (1998) резюмируют, что существует четыре типа основных отношений - несвязанные, касательные (рядом друг с другом), перекрывающиеся и сдерживающие. Предположение для GeoMatch состоит в том, что пользователи сочтут перекрытие и локализацию наиболее полезными при запросе системы.

К операциям, описанным выше, относятся преобразование экранных координат в реальные и сравнение координат углов заданной пользователем области и границ карты. В этом процессе генерируется новое знание - пересекаются ли две области. Полученные знания можно использовать, чтобы привести пользователей к соответствующему источнику информации. GeoMatch предоставляет пользователям дополнительный выбор помимо системы Александрии, с помощью которого можно определить отношения включения.

УРОВЕНЬ 2 В KD - ОПРЕДЕЛЕНИЕ ТОПОЛОГИЧЕСКОЙ СВЯЗИ МЕЖДУ ОПРЕДЕЛЕННОЙ ПОЛЬЗОВАТЕЛЕМ ОБЛАСТЬЮ (ПРЯМОУГОЛЬНИК) И ПОКРЫТИЕМ КАРТЫ

Количественное определение топологической взаимосвязи между определяемой пользователем областью и покрытием карты - уникальная особенность системы GeoMatch. В этом процессе не только определяется топологическая взаимосвязь двух областей, но и выполняется более математический расчет, чтобы оценить, насколько эти две области перекрываются. By combining the information input by users and the data stored in the database, the computer algorithm discovers new knowledge not explicitly represented in the database. Since the user-defined area is rectangular, the calculation involved is not overwhelming and can be realized using a conventional programming language such as C++ or Visual Basic.

This feature allows the system to achieve a higher recall and precision than those systems without this function. Gluck (1995) made an analysis of the relevance and competence in evaluating the performance of information systems. He indicated that "relevance judgments by users most often assess the qualities of retrieved materials item by item at a particular point in time and within a particular user context" (p. 447). Using the qualitative topological matching technique described in Level 1 above, there could be a large gap between the relevance of the system's view and the relevance of the user's view. For example, users may find that some retrieved maps cover only a small part of the area of interest and in fact are useless, but these maps are relevant from the system's view since they overlap the user-defined area. Users may also find that some retrieved maps cover such a large area that the area of actual interest encompasses only a small portion of the whole map. These maps are relevant too from the system's view but, again, practically useless for users. The reason for such a gap between the user's view and system's view is that not enough "knowledge" is discovered and provided for users to describe their information need in more detail. The techniques employed in the quantitative topological matching can greatly reduce the gap of relevance between the two perspectives. In addition, Geomatch can calculate the spatial relevance of the maps to the area of interest and rank the results using the quantitative overlapping factor, while many systems fail to "provide useful ordering of retrieved records" (Larson, McDonough, O'Leary, Kuntz, & Moon, 1990, p. 550). This function is particularly helpful for users when hundreds of maps are included in the result set.

LEVEL 3 IN KD--SPECIFYING TOPOLOGICAL RELATIONSHIP QUANTITATIVELY BETWEEN USER-DEFINED AREA (FREE STYLE) AND MAP COVERAGE

Specifying a topological relationship quantitatively between a user-defined area and map coverage differs from level 2 in that users are allowed to use the mouse to define an irregular area of interest rather than a straight rectangle. This feature can help users express their information need more precisely. For example, a user interested in the lake shore area of a lake can draw an irregular circle around the lake and perform a search.

This process involves complicated topological calculations that are difficult to accomplish using conventional programming languages. The GIS overlay function introduced at the beginning of this discussion needs to be used to generate new polygons and calculate the areas involved. Although the GeoMatch prototype currently does not have this feature, this function could be implemented using a third party GIS software such as the Spatial Engine from ESRI.

MARC RECORD FOR CARTOGRAPHIC INFORMATION RESOURCES

Whether an information system can be adopted depends not only on its creativity and usefulness but also on the degree of difficulty in converting the current system to the new system. MARC record format is studied to examine what new information needs to be collected to use GeoMatch.

US MARC (Machine Readable Cataloging), developed by the Library of Congress, follows the national standard (ANSI/NISO Z39.50) and international standard. It is the basic format of bibliographic description in the United States. Most online catalogs have a MARC interface for data import and export. OCLC, the bibliographic utility, also provides records in MARC format for members to share.

The current MARC format provides sufficient geographic information to support a more powerful searching tool such as GeoMatch. The most important field is Field 034--Coded Mathematical Data Area Field (Mangan, 1984). If a single set of scales is used, the first indicator is set to "1." The subfield codes include $b (ratio linear horizontal scale) Sc (ratio linear vertical scale) Sd (coordinates--westernmost longitude) Se (coordinates--easternmost longitude) $f (coordinates--northernmost latitude) and $g (coordinates--southernmost latitude). The following is an example of the MARC record 034 field:

The field above illustrates that the map covers an area from West 164 [degrees] 00'00" to West 044 [degrees] 00'00" in longitude and from North 090 [degrees] 00'00" to North 040 [degrees] 00'00" in latitude. This demonstrates that MARC records are capable of defining the scope of a map, and the data are usable in systems like GeoMatch. No additional value-adding operations are necessary unless the bibliographic record of a map is not available from the OCLC database or no matching MARC record is available for the map. If a library already has its map collection in its online catalog, all the records can be imported into GeoMatch automatically.

When librarians at the Florida State Library reviewed the prototype for GeoMatch, they realized that it could give answers to difficult questions. For example, towns may disappear over time, county boundaries may change, and users might not remember an exact place name. In such cases, GeoMatch could be very helpful.

Florida State University Library

The librarian showed interest in the GeoMatch system. She thought the system could be useful but should be integrated with the university library catalog system. When the librarian was asked whether the GeoMatch system could solve some difficult to answer questions, she provided the following example:

In summary, librarians in both libraries confirmed the need for a retrieval tool with a graphic user interface facilitating location-based searching. Such a tool is especially important when a user does not know the exact place name but knows approximately the locations of interest or when the name of a place has changed.

Nevertheless, while the librarians judged the system to be creative and potentially useful, they were not eager to implement such a system in their own libraries.

New spatial information retrieval tools are needed to improve the efficiency and effectiveness of geographically referenced searching. The GeoMatch prototype demonstrates that a graphic-based interface can mine the geographical data buried in MARC records and other geospatial sources and visualize the new knowledge discovered in these data. Combined with the text retrieval capability, this knowledge discovery tool provides users with greater flexibility in locating the information they need. Discovering knowledge in geospatial data is distinct from text information searching because it uses algorithms to convert coordinate information into user-understandable and useful knowledge.

The main contribution of GeoMatch is the quantitative analysis of the relationship in the retrieval process. Not only can it help users to more precisely define their information need and adjust the searching strategy, but it can also be used to rank the results.

The study of the MARC format shows that it supports the data requirements of GeoMatch, and no additional information is required for converting an existing online catalog to GeoMatch.

Future research in geospatial information retrieval systems will focus on the usability of the system and the theoretical framework of spatial information retrieval, including:

1. usability testing of GeoMatch to study the user friendliness and usefulness of the system

2. field testing of implementing GeoMatch in a library catalog system

3. evaluation of the efficiency and effectiveness of the quantitative overlapping function

4. design of the formula and algorithms to rank the searching result using factors from spatial comparison and factors from text information retrieval such as keywords

6. application of such a system to information sources other than paper maps, including electronic images and information that can be geographically referenced and

7. accessibility of such a system over the Web.

Results from these studies could enrich the theories in spatial information retrieval and lead to more powerful and user-friendly information retrieval tools.

Bell, D. A., & Guan, J. W. (1998). Computational methods for rough classification and discovery. Journal of the American Society for Information Science, 49(5), 403-414.

Burrough, P. A. (1990). Principles of geographical information systems for land resources assessment. Oxford: Clarendon Press.

Cheeseman, P., & Stutz, J. (1996). Bayesian classification (autoclass): Theory and results. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 153-180). Menlo Park, CA: AAAI Press.

Cobb, M. A., & Petry, F. E. (1998). Modeling spatial relationships within a fuzzy framework. Journal of the American Society for Information Science, 49(3), 253-266.

Environmental System Research Institute. (1991). Understanding GIS. Redland, CA: ESRI.

Fayyad, U. M. Piatetsky-Shapiro, G. & Smyth, P. (1996). From data mining to knowledge discovery: An overview. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 1-34). Menlo Park, CA: AAAI Press.

Glossary. (1995). Retrieved August 18, 1999 from the World Wide Web: http:// www.libraries.rutgers.edu/rulib/abtlib/alexlib/glossary-html.

Gluck, M. (1995). Understanding performance in information systems: Blending relevance and competence. Journal of the American Society for Information Science, 46(6), 446-460.

Larson, R. R. McDonough, J. O'Leary, P. Kuntz, L. & Moon, R. (1996). Cheshire II: Designing a next-generation online catalog. Journal of the American Society for Information Science, 47(7), 555-567.

Mangan, E. U. (1984). MARC conversion manual--maps: Content designation conventions and procedures for AACR2. Washington, DC: Library of Congress.

Schmitz, J. (1990). Coverstory--automated news finding in marketing. Interfaces, 20(6), 29-38.

School of Information Studies, FSU. (1999). Foundations of information studies. Retrieved May 17, 1999 from the World Wide Web: http://slis-one.lis.fsu.edu/courses/5230/.

Smith, T. R. (1996). A brief update on the Alexandria digital library project--constructing a digital library for geographically-referenced materials. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Smith, T. R. (1998). Alexandria atlas subteam. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Trybula, W. J. (1997). Data mining and knowledge discovery. In M. E. Williams (Ed.), Annual review of information science and technology (pp. 197-229). Medford, NJ: Information Today.

Tuzhilin, A. (1997). Editor's introduction to the special issue on knowledge discovery and its applications to business decision-making. Decision Support Systems, 21(1), 1-2.

Xu, X. W. Ester, M. Kriegel, H. P. &Sander, J. (1997). Clustering and knowledge discovery in spatial databases. Vistas in Astronomy, 41(3), 397-403.

Carter, C. L., & Hamilton, J. (1998). Efficient attribute-oriented generalization for knowledge discovery from large databases. IEEE transactions on knowledge and data engineering, 10(2), 193-208.

Chen, Z., & Zhu, Q. (1998). Query construction for user-guided knowledge discovery in databases. Journal of Information Sciences, 109(1-4), 49-64.

Connaway, L. S. Kochtanek, T. R. & Adams, D. (1994). MARC bibliographic records: Considerations and conversion procedures for microcomputer database programs. Microcomputers for Information Management, 11 (2), 69-88.

Deogun, J. S. Choubey, S. K. Raghavan, V. V. & Sever, H. (1998). Feature selection and effective classifiers. Journal of the American Society for Information Science, 49(5), 423-434.

Maddouri, M. Elloumi, S. & Jaoua, A. (1998). An incremental learning system for imprecise and uncertain knowledge discovery. Journal of Information Science, 109(1-4), 149164.

Morik, K., & Brockhausen, P. (1997). A multistrategy approach to relational knowledge discovery in databases. Machine Learning, 27(3), 287-312.

Vickery, B. (1997). Knowledge discovery from databases: An introductory review. Journal of Documentation, 53(2), 107-122.

Lixin Yu, School of Information Studies, Florida State University, Tallahassee, FL 32306-2100

LIXIN YU is an Assistant Professor at the School of Information Studies, Florida State University, where he teaches courses in database management, user interface design, and information system design and development. He worked as a Project Manager at Geosocial Resources, Inc. and has been working on Geographic Information System projects since 1990. He has published articles on GIS including "Geographic Information Systems in Library Reference Services: Development and Challenge" (Reference Librarian, February 1998) and "Assessing the Efficiency and Accuracy of Street Address Geocoding Strategies" (Proceedings of GIS '97, December 1997).3


Data Transfer

For many projects, it would be nearly impossible to gather all of the necessary data on your own. That’s where external data sources come in. Regardless of where the data comes from, GIS software can overlay all of the information into a single, layered map.

Sources

Any information tied to a specific location can be a part of GIS data collection. According to National Geographic, there are four main categories of GIS data:

  • Cartographic data: cartographic data is already in a map format and describes the location of features, the location of buildings, survey information, etc.
  • Photographic data: photographic data can be used to analyze and map features from print and digital photos, satellite imagery, and aerial photography.
  • Digital data: Digital data includes any information that’s already in digital format, including tables, satellite findings, and any data that’s been digitized by another GIS professional.
  • Spreadsheet data: This includes information in tables and spreadsheets, which typically need to be formatted as an Excel or CSV (comma-separated values) file. Spreadsheets are often the go-to source for demographic information such as age, income levels, or even spending habits.

Process

While there’s no shortage of public data, there’s also little to no standardization, making it difficult to find data in the right format. However, just because data isn’t formatted correctly doesn’t necessarily mean it’s unusable – it just needs to be translated.

There are two main components to translating data for GIS software, syntactic and semantic translation. Syntactic translation is by far the easier of the two, as it only involves translating symbols such as letters and numbers between systems. Semantic translation, on the other hand, is a bit more complicated. It aims to decipher the meaning behind the data, and though progress has been made, semantic translation tends not to be very accurate.


GIS Introduction by David J. Buckey

Data editing and verification is in response to the errors that arise during the encoding of spatial and non-spatial data. The editing of spatial data is a time consuming, interactive process that can take as long, if not longer, than the data input process itself.

Several kinds of errors can occur during data input. They can be classified as:

Incompleteness of the spatial data. This includes missing points, line segments, and/or polygons.
Locational placement errors of spatial data. These types of errors usually are the result of careless digitizing or poor quality of the original data source.
Distortion of the spatial data. This kind of error is usually caused by base maps that are not scale-correct over the whole image, e.g. aerial photographs, or from material stretch, e.g. paper documents.
Incorrect linkages between spatial and attribute data. This type of error is commonly the result of incorrect unique identifiers (labels) being assigned during manual key in or digitizing. This may involve the assigning of an entirely wrong label to a feature, or more than one label being assigned to a feature.
Attribute data is wrong or incomplete. Often the attribute data does not match exactly with the spatial data. This is because they are frequently from independent sources and often different time periods. Missing data records or too many data records are the most common problems.

The identification of errors in spatial and attribute data is often difficult. Most spatial errors become evident during the topological building process. The use of check plots to clearly determine where spatial errors exist is a common practice. Most topological building functions in GIS software clearly identify the geographic location of the error and indicate the nature of the problem. Comprehensive GIS software allows users to graphically walk through and edit the spatial errors. Others merely identify the type and coordinates of the error. Since this is often a labour intensive and time consuming process, users should consider the error correction capabilities very important during the evaluation of GIS software offerings.

Spatial Data Errors

A variety of common data problems occur in converting data into a topological structure. These stem from the original quality of the source data and the characteristics of the data capture process. Usually data is input by digitizing. Digitizing allows a user to trace spatial data from a hard copy product, e.g. a map, and have it recorded by the computer software. Most GIS software has utilities to clean the data and build a topologic structure. If the data is unclean to start with, for whatever reason, the cleaning process can be very lengthy. Interactive editing of data is a distinct reality in the data input process.

Experience indicates that in the course of any GIS project 60 to 80 % of the time required to complete the project is involved in the input, cleaning, linking, and verification of the data.

The most common problems that occur in converting data into a topological structure include:

slivers and gaps in the line work
dead ends, e.g. also called dangling arcs, resulting from overshoots and undershoots in the line work and
bow ties or weird polygons from inappropriate closing of connecting features.

Of course, topological errors only exist with linear and areal features. They become most evident with polygonal features. Slivers are the most common problem when cleaning data. Slivers frequently occur when coincident boundaries are digitized separately, e.g. once each for adjacent forest stands, once for a lake and once for the stand boundary, or after polygon overlay. Slivers often appear when combining data from different sources, e.g. forest inventory, soils, and hydrography. It is advisable to digitize data layers with respect to an existing data layer, e.g. hydrography, rather than attempting to match data layers later. A proper plan and definition of priorities for inputting data layers will save many hours of interactive editing and cleaning.

Dead ends usually occur when data has been digitized in a spaghetti mode, or without snapping to existing nodes. Most GIS software will clean up undershoots and overshoots based on a user defined tolerance, e.g. distance. The definition of an inappropriate distance often leads to the formation of bow ties или же weird polygons during topological building. Tolerances that are too large will force arcs to snap one another that should not be connected. The result is small polygons called bow ties. The definition of a proper tolerance for cleaning requires an understanding of the scale and accuracy of the data set.

The other problem that commonly occurs when building a topologic data structure is duplicate lines. These usually occur when data has been digitized or converted from a CAD system. The lack of topology in these type of drafting systems permits the inadvertent creation of elements that are exactly duplicate. However, most GIS packages afford automatic elimination of duplicate elements during the topological building process. Accordingly, it may not be a concern with vector based GIS software. Users should be aware of the duplicate element that retraces itself, e.g. a three vertice line where the first point is also the last point. Some GIS packages do not identify these feature inconsistencies and will build such a feature as a valid polygon. This is because the topological definition is mathematically correct, however it is not geographically correct. Most GIS software will provide the capability to eliminate bow ties and slivers by means of a feature elimination command based on area, e.g. polygons less than 100 square metres. The ability to define custom topological error scenarios and provide for semi-automated correction is a desirable capability for GIS software.

The adjoining figure illustrates some typical errors described above. Can you spot them ? They include undershoots, overshoots, bow ties, and slivers. Most bow ties occur when inappropriate tolerances are used during the automated cleaning of data that contains many overshoots. This particular set of spatial data is a prime candidate for numerous bow tie polygons.

Attribute Data Errors

The identification of attribute data errors is usually not as simple as spatial errors. This is especially true if these errors are attributed to the quality or reliability of the data. Errors as such usually do not surface until later on in the GIS processing. Solutions to these type of problems are much more complex and often do not exist entirely. It is much more difficult to spot errors in attribute data when the values are syntactically good, but incorrect.

Simple errors of linkage, e.g. missing or duplicate records, become evident during the linking operation between spatial and attribute data. Again, most GIS software contains functions that check for and clearly identify problems of linkage during attempted operations. This is also an area of consideration when evaluating GIS software.

Data Verification

Six clear steps stand out in the data editing and verification process for spatial data. These are:

Visual review. This is usually by check plotting.

These data verification steps occur after the data input stage and prior to or during the linkage of the spatial data to the attributes. Data verification ensures the integrity between the spatial and attribute data. Verification should include some brief querying of attributes and cross checking against known values.


8.7 Questions

We will continue to use the COVID-19 dataset. Please see Chapter 11 for details on the data.

Using these data, you are required to address the following challenges:

Fit a varying-slope model. Let one slope to vary by region. Think carefully your choice.

Fit a varying-intercept and varying-slope model.

Compare the results for models fitted in 1 and 2. Which is better? Почему?

Use the same explanatory variables used for the Chapter 7 challenge, so you can compare the model results from this chapter.


2 ответа 2

Inspired by @dk14 's answer, now I have a clearer mind on this question, though I don't completely agree with his answer. And I hope to post mine online for more confirmation.

On a vanilla case, where the input of original AlexNet is still (224,224,3), after a series of Conv layer and pooling, we reach the last Conv layer. At this moment, the size of the image turns into (7,7,512).

At the converted Conv layer(converted from FC1), we have 4096 * (7,7,512) filters overall, which generates (1,1,4096) vector for us. At the second converted Conv layer(converted from FC2), we have 4096 * (1,1,4096) filters, and they give us a output vector (1,1,4096). It's very important for us to remember that, in the conversion, filter size must match the input volume size. That's why we have one by one filter here. Similarily, the last converted Conv layer have 1000 * (1,1,4096) filters and will give us a result for 1000 classes.

The processed is summarized in the post: http://cs231n.github.io/convolutional-networks/#convert.

In FC1, the original matrix size should be (7*7*512, 4096), meaning each one of the 4096 neuron in FC2 is connected with every neuron in FC1. While after conversion, the matrix size becomes (7,7,512,4096), meaning we have 4096 (7,7,512) matrixes. It's like taking out each row of the original gigantic matrix, and reshape it accordingly.

Let's start with $F = 7$, $P = 0$, $S = 1$ notion. What does it actually mean:

$F = 7$: receptive field size is set to a maximum value (7 for 1D, 7x7 for 2D) which implies no parameter sharing (as there is only one receptive field), which is default for MLP. If F was equal to 1, all connections (from the image above) would always have an identical weight.

$S = 1$: stride equals to 1, which means that no neurons on the next layer is going to be removed (see figure below). Given $F = 7$ if we had stride = 2, the number of next-layer nodes would be twice smaller. Source: http://cs231n.github.io/convolutional-networks

$P = 0$: no zero padding, as we don't need it for a full receptive field (there is no uncovered units as you can see from image above).

Those three conditions basically guarantee that connectivity architecture is exactly same as for canonical MLP.

Attempt to answer your question about reshaping matrices:

Example of reshaping in Python's Numpy library: numpy.reshape

My guess is that the author meant that FCN usually has 1D output "vector" (from each layer) instead of 2D matrix. Let's say, the first layer of FC-network returns 1x1x4096 output matrix as it doesn't care about image's dimensions - it stacks all dimensions into one vector (put each rows on top of another). You can guess that next layer's weight matrix is gonna have corresponding shape (4096x4096) that combines all possible outputs). So when you convert it to a convolutional receptive field - you'll probably have to move your activations to 2D, so you need 64x64 activations and, I guess, something like 64x64x4096 tensor for receptive field's weights (since $S=1$).

The quote from the article that demonstrates "reshaping":

For example, if 224x224 image gives a volume of size [7x7x512] - i.e. a reduction by 32, then forwarding an image of size 384x384 through the converted architecture would give the equivalent volume in size [12x12x512], since 384/32 = 12. Following through with the next 3 CONV layers that we just converted from FC layers would now give the final volume of size [6x6x1000], since (12 - 7)/1 + 1 = 6. Note that instead of a single vector of class scores of size [1x1x1000], we’re now getting and entire 6x6 array of class scores across the 384x384 image

Example (for activations of some layer):

In order to show weights reshaping (to fit 2D image), I'd have to draw square into cube conversion. However, there is some demos on the internet:

P.S. However, I have some confusion about AlexNet example: it seems like mentioned $F=1$ just means "full" parameter sharing across non-existent dimensions (1x1). Otherwise, it won't be completely equivalent to an MLP with no parameter sharing - but maybe that's what was implied (scaling small FC-network into a large CNN).

to “slide” the original ConvNet very efficiently across many spatial positions in a larger image

Basically it allows you to scale a FC-network trained on small portions/images into a larger CNN. So in that case only small window of resulting CNN will be initially equivalent to an original FCN. This approach gives you ability to share parameters (learned from small networks) across large networks in order to save computational resources and apply some kind of regularization (by managing network's capacity).

Edit1 in response to your comment.

Example of $N = 5$ (sorry I was lazy to draw 7 neurons), $F=5$, $S=2$ :

So you can see that S = 2 can be applied even for receptive field with maximum size, so striding can be applied without parameter sharing as all it does is just removing neurons.

And parameter sharing strategies could be different. For instance, you can't tell about my last figure wether parameter are shared between neurons or not.


Predictive Ecosystem Mapping (PEM) Detailed Polygons with Short Attribute Table - 50,000 Spatial View

PEM_50K contains 1 to 50,000 PEM polygons with key and amalgamated (concatenated) attributes derived from the Resource Inventory Standards Committee (RISC) standard attributes. PEM divides the landscape into units according to a variety of ecological features including climate, physiography, surficial material, bedrock geology, soils and vegetation. PEM uses a modeling approach to ecosystem mapping, whereby existing knowledge of ecosystem attributes and relationships are used to predict ecosystem representation in the landscape. This layer is derived from the STE_TEI_ATTRIBUTE_POLYS_SP layer by filtering on the PROJECT_TYPE and PROJECT_MAP_SCALE attributes.

  • BGC
  • Канада
  • DTEIF
  • Drainage
  • PEM
  • SEI
  • STE
  • STEWI
  • TEIS
  • TEM
  • TER
  • TSM
  • WHR
  • biogeoclimatic
  • bioterrain
  • bioterrain mapping
  • describing terrestr.
  • ecology
  • ecosystem
  • ecosystem mapping
  • ecosystem modelling
  • erosion
  • landslide
  • predictive ecosyste.
  • sedimentation
  • sensitive ecosystem
  • sensitive ecosystem.
  • slope stability
  • soil
  • terrain
  • terrain and ecosystems
  • terrain mapping
  • terrain stability
  • terrain stability m.
  • terrestrial ecosyst.
  • wildlife habitat ra.
  • wildlife inventory

Data and Resources

The PEM data in geodatabase format is available in the TEI Data Distribution.


Driver capabilities¶

This driver supports the GDALDriver::Create() operation

This driver supports georeferencing

KML Reading¶

KML reading is only available if GDAL/OGR is built with the Expat XML Parser, otherwise only KML writing will be supported.

Supported geometry types are Point , Linestring , Polygon , MultiPoint , MultiLineString , MultiPolygon and MultiGeometry . There are limitations, for example: the nested nature of folders in a source KML file is lost folder <description> tags will not carry through to output. Folders containing multiple geometry types, like POINT and POLYGON, are supported.

KML Writing¶

Since not all features of KML are able to be represented in the Simple Features geometry model, you will not be able to generate many KML-specific attributes from within GDAL/OGR. Please try a few test files to get a sense of what is possible.

When outputting KML, the OGR KML driver will translate each OGR Layer into a KML Folder (you may encounter unexpected behavior if you try to mix the geometry types of elements in a layer, e.g. LINESTRING and POINT data).

The KML Driver will rename some layers, or source KML folder names, into new names it considers valid, for example ‘ Layer #0 ’, the default name of the first unnamed Layer, becomes 'Layer__0' .

KML is mix of formatting and feature data. The <description> tag of a Placemark will be displayed in most geobrowsers as an HTML-filled balloon. When writing KML, Layer element attributes are added as simple schema fields. This best preserves feature type information.

Limited support is available for fills, line color and other styling attributes. Please try a few sample files to get a better sense of actual behavior.


Смотреть видео: Top programe de editat video GRATIS 2021 (October 2021).