Более

Как изменить знак значения z в большом наборе данных?


У меня есть данные в формате XYZ (сохраненные как файл .txt), которые я импортирую в ArcGIS, а затем конвертирую в растр с помощью преобразования точки в растр. Однако поле Z в данных представляет собой глубину ниже поверхности моря, но исходное программное обеспечение выводило его как положительное значение. Чтобы правильно построить график в ArcGIS, есть ли простой способ преобразовать эти значения в отрицательные значения или построить их как подводные? Таблица содержит почти 40 000 000 строк, поэтому я не могу выполнить преобразование в текстовом редакторе. Я пробовал использовать функцию Калькулятора поля в таблице, но эта опция неактивна?


Вы можете взять растр, полученный в результате первоначального преобразования, и использовать Spatial Analyst -> Math -> Times, чтобы умножить растр на -1.


Высокие стандартные ошибки GLM, но переменные определенно не коллинеарны

Когда я использую GLM с R, мои стандартные ошибки смехотворно высоки. Этого не может быть, потому что независимые переменные связаны между собой, потому что все они являются разными рейтингами для человека (т.е. переменные взаимодействия не рассматриваются). Есть идеи, что вызывает это?

Ниже представлена ​​таблица непредвиденных обстоятельств и сводка по glm:

Примечание: я использую swagtype вместо настоящего имени, поскольку информация, с которой я имею дело, является конфиденциальной.


Методы

Сбор данных

В этой статье мы представляем несколько наборов данных для бразильского региона Амазонки. В нашей базе данных содержится информация из девяти штатов, входящих в бразильскую Legal Amazon по определению Бразильского института географии и статистики, IBGE (Instituto Brasileiro de Geografia e Estatística): Акко (AC), Амапа (AP), Amazonas (AM), Maranhão (MA), Mato Grosso (MT), Pará (PA), Rondônia (RO), Roraima (RR) и Tocantins (TO). Несмотря на то, что Legal Amazon официально заканчивается к востоку от 44-го меридиана, мы включаем данные для всего штата Мараньян. Чтобы составить базу данных, мы провели поиск в Интернете показателей и движущих сил экологических и социальных изменений, связанных с проектами развития инфраструктуры в регионе. Мы сосредоточили наш поиск на переменных, связанных с социально-экономическим развитием, демографией, землепользованием и растительным покровом, общественным здравоохранением, гидрологическими системами, плотинами гидроэлектростанций и климатом. Выбранные наборы данных сгруппированы по пяти всеобъемлющим темам, подробно описанным ниже: Здоровье, Окружающая среда, Социально-экономика, Гидрология и Гидроэлектрические плотины. Все наборы данных, кроме гидрологических и гидроэлектростанций, агрегированы на муниципальном уровне.

Медицинские записи

Записи общественного здравоохранения были взяты с веб-сайтов правительства Бразилии. В этих записях указывается годовое количество случаев заболеваний по месту жительства, включая лихорадку денге, кожный лейшманиоз и ВИЧ / СПИД. FIOCRUZ (Fundação Oswaldo Cruz) предоставил дополнительные отредактированные данные о заболеваемости малярией, первоначально собранные в рамках правительственной программы Бразилии SIVEP-malaria (Sistema de Informação de Vigilância Epidemiologica — Notificação de Casos). Файлы данных о случаях лихорадки денге, кожного лейшманиоза и ВИЧ / СПИДа были загружены с веб-сайтов Министерства здравоохранения Бразилии, связанных с SINAN (Sistema de Informação de Agravos de Notificação) и DATASUS (Departamento de Informática do Sistema nico de Saúde). Поскольку ссылки на эти веб-страницы нестабильны, информация о доступе к исходным наборам данных подробно описана в дополнительном файле 1.

Переменные среды

Наборы данных, связанные с темой «Окружающая среда», включают ежемесячные осадки, первоначальный лесной покров и поверхностный водный покров. Эти переменные были собраны из трех отдельных источников и суммированы на муниципальном уровне с помощью ArcGIS (ArcMap 10.2) на основе карты округов Бразилии 2010 года. Пользователи, заинтересованные в доступе к исходным дезагрегированным переменным среды, могут получить доступ к этим данным из исходных источников, указанных ниже.

Осадки сообщает о среднемесячном накопленном количестве осадков и продолжительности засушливого сезона в исследуемом регионе на основе растровых данных с января 2000 г. по декабрь 2010 г. Исходные растровые данные доступны с разрешением сетки 0,25 ° × 0,25 ° широты / долготы и были получены из Национального Миссия по измерению тропических осадков (TRMM) Управления по аэронавтике и исследованию космического пространства (НАСА), продукт TRMM 3B43 (ref. 33). После выделения области исследования и преобразования растра в точку в ArcGIS, значения точек для ежемесячно накопленных осадков были усреднены в пределах муниципалитетов. Когда ни одна точка не попадала в данный муниципалитет, использовалась точка выпадения осадков, ближайшая к центроиду муниципалитета. Затем муниципальные значения ежемесячного накопления осадков были усреднены за период 2000–2010 гг. Продолжительность засушливого сезона рассчитывалась как количество последовательных месяцев со среднемесячным количеством осадков ниже 100 мм. Этот индекс широко использовался для характеристики засухи в регионе 34,35. Доступ к исходным данным можно получить в режиме онлайн по адресу http://disc.gsfc.nasa.gov/datacollection/TRMM_3B43_V7.shtml.

Оригинальная лесная обложка отображает общую площадь лесов (км 2) и процент лесного покрова на каждый муниципалитет, оцененный на момент «открытия» Бразилии европейцами в 1500 году. Эти данные получены из бразильской карты растительности, составленной IBGE (Vegetação do Brasil 1: 500 000). Исходные карты отображают все типы растительности, но представленные здесь данные учитывают только классы лесной растительности. Используя ArcMap 10.2, мы подгруппы данных, чтобы охватить легальные штаты Amazon. Затем мы использовали инструмент «Пересечение», чтобы разделить информацию о растительности по округам, а затем рассчитали площадь лесов для каждого муниципалитета. Общая площадь лесов соответствует совокупности следующих исходных классов растительности: Vegetação Ombrófila Aberta, Vegetação Ombrófila Aberta Aluvial, Vegetação Ombrófila Aberta Submontana, Vegetação Ombrófila Aberta Terras Baixas, Кампинарана / Флореста Омброфила, Floresta Ombrófila / Floresta Estacional, Floresta Estacional Decidual, Floresta Estacional Decidual Submontana, Floresta Estacional Semidecidual, Floresta Estacional Semidecidual Aluvial, Floresta Estacional Semidecidual Submontana, Floresta Estacional Semidecidual Terras Baixas, Флореста Омброфила Денса, Floresta Ombrófila Densa Aluvial, Флореста Омброфила Денса Монтана, Floresta Ombrófila Densa Submontana, Floresta Ombrófila Densa Terras Baixas. Исходные файлы форм карты растительности можно загрузить по адресу ftp://geoftp.ibge.gov.br/informacoes_ambientais/vegetacao/vetores/brasil/vegetacao/.

Водяной покров является производным от водной маски MODIS (спектрорадиометр изображения среднего разрешения), который можно загрузить с http://modis.gsfc.nasa.gov/data/dataprod/mod44w.php. Этот набор данных основывался в основном на данных миссии Shuttle Radar Topography и при необходимости дополнялся данными MODIS 250 м 36 данными, собранными в период 2000–2008 годов. Пространственное разрешение набора данных 250 м. Используя ArcGIS, мировой набор данных был ограничен пресными водоемами в пределах исследуемого региона Амазонки, а полигоны, представляющие водные территории, были агрегированы по муниципалитетам. На основе этих данных была рассчитана общая площадь водного покрова и процент покрытия для каждого муниципалитета.

Социально-экономические показатели

Первоначальный поиск социально-экономических данных проводился в двух основных бразильских источниках: IBGE и Институте прикладных экономических исследований IPEA (Instituto de Pesquisa Econômica Aplicada). Данные переписи от БИГС доступны на муниципальном уровне и охватывают переменные, связанные с демографией, образованием, доходом, работой, сельским хозяйством, качеством жизни и бедностью. Особое внимание было уделено тому факту, что границы муниципальных образований Бразилии значительно изменились за последние два десятилетия, поскольку были созданы новые муниципалитеты и сместились муниципальные границы. Эти изменения были особенно распространены в регионе Амазонки, поскольку в этот район мигрировали новые популяции. Между переписью населения Бразилии 1991–2000 гг. На территории нашего исследования было создано 263 новых муниципалитета (путем разделения ранее существовавших муниципалитетов), а в период с 2000 г. по 2010 г. было создано еще 15 новых муниципалитетов (все в пределах штата Мату-Гросу). Эти изменения со временем усложняют сравнение. Чтобы избежать проблем, связанных с этими изменениями, мы решили использовать данные из Атласа человеческого развития Бразилии (Atlas do Desenvolvimento Humano no Brasil—Http: //www.atlasbrasil.org.br), в котором обобщается большое подмножество демографических переменных переписи, собранных БИГС в 1991, 2000 и 2010 годах, и каждая переменная корректируется в соответствии с муниципальными границами, связанными с переписью 2010 года. Это было достигнуто путем использования исходной информации на уровне переписных участков из переписей 1991 и 2000 годов и перегруппировки / пересчета данных для соответствия муниципальным границам 2010 года.

В этот набор данных мы также включаем добычу золота как вид экономической деятельности. Информация о добыче полезных ископаемых в Бразилии передается в Национальный департамент горнодобывающей промышленности Бразилии, DNPM (Departamento Nacional de Produção Mineral). Оригинальные шейп-файлы, отображающие все районы, о которых сообщалось о горнодобывающей деятельности в Бразилии, были загружены штатом с веб-сайта DNPM (http://sigmine.dnpm.gov.br/webmap/). Для нашего набора данных мы специально выбрали следующие категории добычи золота, как это определено DNPM: Лавра Гаримпейра (мелкомасштабная / аллювиальная добыча), licenciamento (лицензия на добычу полезных ископаемых), Requerimento de Lavra (разрешение на добычу), Requerimento de licenciamento (разрешение лицензии), и концессион де Лавра (концессия на добычу полезных ископаемых). Используя ArcGIS, мы сопоставили центр каждого горнодобывающего полигона с соответствующим муниципалитетом и назначили присутствие / отсутствие золотодобывающих предприятий (1 и 0, соответственно) каждому муниципалитету на основе карты округов Бразилии 2010 года.

Гидрология Амазонки

Точечные данные об уровне воды (938 гидропостов), расходе / расходе реки (551 гидропост) и суточных осадках (1342 гидропоста) были собраны Национальным агентством водных ресурсов Бразилии, ANA (Агенсия Насьональ де Агуас) через свой веб-сайт HidroWeb (http://hidroweb.ana.gov.br/default.asp). Флувиометрические гидрометрические станции измеряют уровень воды и / или речной сток, а плювиометрические гидрометрические станции фиксируют ежедневное количество осадков. По всему нашему исследуемому региону, включая бассейны рек Амазонки, Токантинс / Арагуайя, Парана и Атлантический океан, флувиометрические и плювиометрические станции ежедневно измеряли ключевые гидрологические переменные, начиная с 1922 года, хотя большинство записей данных находится в диапазоне с 1965 по 2015 год. уровня воды, потока и осадков, мы использовали программный пакет Hidro1.2 (широко используемый ANA) для обработки данных и создания отдельных файлов электронных таблиц для каждой гидропоста.

Гидроэнергетика

В качестве примера продолжающегося развития инфраструктуры мы приводим информацию о крупных плотинах гидроэлектростанций в Амазонии. Набор данных плотин содержит следующие переменные: название плотины, затронутую реку, дату начала строительства, дату заполнения водохранилища, дату эксплуатации, утвержденную выработку энергии, фактическую выработку энергии, площадь водохранилища, муниципалитеты, непосредственно затронутые плотиной, и площадь каждого муниципалитета, затопленного водой. плотина. Включены только действующие плотины с мощностью производства более 30 МВт энергии в соответствии с критериями правительства Бразилии для «больших» плотин (Усинас Хидрелетрикас де Энергия—UHE). Детали плотины были в основном приобретены у Бразильского национального агентства по электроэнергии, ANEEL (Agência Nacional de Energia Elétrica http://www.aneel.gov.br). Эти данные были извлечены как файлы .KMZ (http://sigel.aneel.gov.br/kmz.html) и из подстраниц в Compensação Financeira pela Utilização de Recursos Hídricos (http://www.aneel.gov.br/aplicacoes/cmpf/gerencial/). Даты строительства плотины и заполнения водохранилища собирались из различных интернет-источников - обычно из официальных веб-сайтов, связанных с плотиной, или из государственных документов, разрешающих строительство плотины, но иногда из газет или веб-сайтов строительных компаний. По возможности даты заполнения водохранилища подтверждались путем сравнения нескольких спутниковых снимков Landsat во временном ряду, следующего за датой строительства, с использованием Google Earth Engine 37.

Известные аномалии данных

Большая часть данных, найденных в нашей базе данных (т. Е. Социально-экономические переменные), была первоначально собрана БИГС в рамках национальных переписей населения Бразилии в 1991, 2000 и 2010 годах. Однако, как упоминалось выше, муниципальные границы значительно изменились в период с 1991 по 2010 г., когда были созданы новые муниципалитеты, а размеры других уменьшились или увеличились. Однако эта сложность затрудняет сопоставление по временным периодам благодаря инициативе Программы развития Организации Объединенных Наций (ПРООН) (в сотрудничестве с IPEA и Fundação João Pinheiro), Атласа человеческого развития в Бразилии, социально-экономические данные, представленные здесь, были скорректированы, чтобы соответствовать более поздней муниципальной карте Бразилии 2010 года. Более обширный источник данных, охватывающий еще более широкий спектр социально-экономических переменных и переменных развития, собранных в ходе переписи населения Бразилии, доступен через веб-сайт IBGE (http://www.ibge.gov.br), однако данные 1991 и 2000 годов не корректируются. чтобы соответствовать границам муниципалитетов 2010 года, и поэтому для анализа данных необходимо использовать загружаемые муниципальные карты на каждый соответствующий год, также доступные на веб-сайте IBGE, а сравнения по годам ограничены. Кроме того, некоторые переменные в нашем наборе социально-экономических данных были измерены в 2000 и 2010 годах, но не в 1991 году (например, валовой внутренний продукт [ВВП]). В этом случае мы сохранили переменную в наборе данных 1991 года для обеспечения согласованности по годам переписи, но присвоили недостающие значения (NA) для всех муниципалитетов.

Хотя данные о здоровье в этом документе не подвергались корректировке с учетом границ муниципальных образований, во всех наборах данных указывается заболеваемость с 2001 года. После 2001 года только три муниципалитета в регионе Амазонки были либо недавно созданы, либо претерпели значительные изменения границ. Мы обозначили значения для этих трех муниципалитетов из Мату-Гросу (Ипиранга-ду-Норти, Итанхага и Тапура) как пропущенные значения (NA). Веб-страницы, которые изначально использовались для загрузки наборов данных о лихорадке денге, кожном лейшманиозе и ВИЧ / СПИДе, доступны непоследовательно (т.е. ссылки на эти веб-сайты периодически не работают). Мы предлагаем более подробную информацию о веб-доступе к наборам данных о здоровье в дополнительном файле 1.

Гидрологические данные также представляли собой уникальную проблему, поскольку гидрологические станции регистрировали данные за различные промежутки времени (некоторые датируются 1922 годом), а значительный объем данных отсутствует или не собран. Тем не менее, существует временное совпадение, и хотя эти данные временами неоднородны, они предоставляют наилучшую доступную информацию для пользователей, интересующихся гидрологией Амазонки и ее взаимосвязью с более крупной социально-экологической системой Амазонки.

Чтобы облегчить интеграцию гидрологических данных с другими наборами данных, информация о муниципальных кодах была добавлена ​​к каждой флувиометрической и плювиометрической гидрометрической станции. В ходе этого процесса мы заметили, что названия некоторых муниципалитетов, связанные с гидропостами на HidroWeb, не совпадают с местоположениями станций при нанесении на карту муниципалитета 2010 года. Эти станции, вероятно, сохранили название муниципалитета, актуальное на момент начала измерений (например, 1960-е годы), создавая несоответствие в том, где новые муниципалитеты были созданы с момента начала мониторинга. Поэтому мы подтвердили и при необходимости обновили названия муниципалитетов и муниципальные кодексы, связанные с гидрологическими станциями, на основе муниципальных границ 2010 года.


Как рассчитать доверительный интервал

Чтобы продемонстрировать, как рассчитать доверительный интервал, давайте представим группу исследователей, которые заинтересованы в том, чтобы определить, являются ли апельсины, выращенные на определенной ферме, достаточно большими, чтобы их можно было продать будущей продуктовой сети.

Шаг №1: Найдите количество образцов (n).

Исследователи случайным образом выбирают 46 апельсинов с деревьев на ферме.

Следовательно, n = 46.

Шаг № 2: Рассчитайте среднее значение (x) образцов.

Затем исследователи вычислили средний вес образца 86 граммов.

Следовательно, х = 86.

Шаг № 3: Рассчитайте стандартное отклонение (я).

Лучше всего использовать стандартное отклонение для всей генеральной совокупности, однако во многих случаях исследователи не будут иметь доступа к этой информации. В этом случае исследователи должны использовать стандартное отклонение выборки, которую они установили.

В нашем примере предположим, что исследователи прибегли к вычислению стандартного отклонения от своей выборки. Они получают стандартное отклонение 6,2 грамма.

Следовательно, s = 6,2.

Шаг №4: Определите доверительный интервал, который будет использоваться.

95-процентные и 99-процентные доверительные интервалы являются наиболее частым выбором в типичных исследованиях рынка.

В нашем примере предположим, что исследователи решили использовать доверительный интервал 95 процентов.

Шаг № 5: Найдите значение Z для выбранного доверительного интервала.

Затем исследователи использовали следующую таблицу для определения значения Z:

Доверительный интервалZ
80%1.282
85%1.440
90%1.645
95%1.960
99%2.576
99.5%2.807
99.9%3.291

Поскольку они решили использовать 95-процентный доверительный интервал, исследователи определили, что Z = 1,960.

Шаг № 6: Рассчитайте следующую формулу.

Затем исследователям нужно будет подставить свои известные значения в формулу.

Продолжая наш пример, эта формула будет выглядеть следующим образом:

86 ± 1.960 (6.2/6.782)

При вычислении эта формула дает исследователям результат: 86 ± 1.79 как их доверительный интервал.

Шаг № 7: Сделайте вывод.

Теперь исследователи определили, что истинное среднее значение для большей популяции апельсинов, вероятно (с достоверностью 95%), составляет от 84,21 грамма до 87,79 грамма.


5 ответов 5

Вы не можете использовать gzip целиком, так как gzip сжимает только один файл, вы можете создать tar-файл и сжать его, чтобы «сжать все это», но вы потеряете возможность rsync копировать только измененный файл.

Итак, вопрос: лучше ли хранить файл, который мне нужен, в rsync gziped или полагаться на параметр -z rsync.
Ответ, вероятно, заключается в том, что вы не хотите, чтобы файл распаковывался на вашем сервере? Думаю, да, поэтому я не понимаю, как можно было бы сжать файл перед выполнением rsync.

Может быть, вам не нужна возможность rsync для копирования только измененного файла? В этом случае зачем использовать rsync вместо scp файла tar.gz, содержащего ваш материал?

В любом случае, чтобы ответить на вопрос, rsync gzip будет немного менее эффективным, чем gziping файла с помощью gzip. Почему ? поскольку rsync будет сжимать данные по частям, поэтому меньший набор данных будет использоваться для создания таблицы, которую gzip использует для сжатия, больший набор данных (gzip будет использовать весь файл сразу) даст лучшую таблицу сжатия. Но в большинстве случаев разница будет очень и очень небольшой, но в очень редких случаях разница может быть более важной (если у вас очень большой файл с очень длинными частями, многократно повторяющимися в файле, но далеко друг от друга) (это очень упрощенный пример)


3 ответа 3

Член точки пересечения - это точка пересечения в линейной части уравнения GLM, поэтому ваша модель среднего значения - $ E [Y] = g ^ <-1> ( mathbf) $, где $ g $ - ваша функция ссылки, а $ mathbf$ - ваша линейная модель. Эта линейная модель содержит «член перехвата», то есть:

$ mathbf = c + X_1 beta_1 + X_2 beta_2 + cdots $

В вашем случае перехват значительно отличен от нуля, но переменная - нет, поэтому он говорит, что

Поскольку ваша функция ссылки является биномиальной, тогда

Итак, используя только член перехвата, ваша подходящая модель для среднего:

Вы можете видеть, что если $ c = 0 $, то это соответствует просто 50:50 шансам получить Y = 1 или 0, то есть $ E [Y] = frac <1> <1 + 1> = 0.5 $.

Итак, ваш результат говорит о том, что вы не можете предсказать результат, но один класс (1 или 0) более вероятен, чем другой.

Мне кажется, что с данными может быть какая-то проблема. Странно, что оценка параметра для коэффициента будет 0,000. Похоже, что и ваш DV, и ваш IV дихотомичны, и что пропорции вашего DV вообще не меняются с вашим IV. Это правильно?

Перехват, как я отметил в своем комментарии (и как следует из ответа @corone), представляет собой значение DV, когда IV равен 0. Как был закодирован ваш IV? Однако тот факт, что оценка коэффициента составляет 0,000, означает, что IV не имеет значения.

Следовательно, точка пересечения 2,708 является оценочным логитом DV: то есть $ text( гидроразрыв

<1-p>) $ на всех уровнях IV.

Лечение + Испытание + Лечение * Испытание + (1 | Птица) Данные: данные AIC BIC logLik deviance 139,6 153,8 -64,78 129,6 Случайные эффекты: Группы Название Дисперсия Стандартное отклонение. Bird (Перехват) 0,87795 0,93699 Количество наблюдений: 128, группы: Bird, 32 $ endgroup $ & ndash Samuel Waldron 21 янв.

В вашем случае перехват - это большое среднее значение attacked_excluding_app, рассчитанное для всех данных независимо от обработки. Тест значимости в таблице коэффициентов проверяет, значительно ли он отличается от нуля. Актуально ли это, зависит от того, есть ли у вас априорная причина ожидать, что он будет равен нулю или нет.

Например, представьте, что вы тестировали лекарство и плацебо на их влияние на кровяное давление. Для каждого субъекта вы записываете изменение его кровяного давления путем вычисления (давление после лечения - давление до лечения) и рассматриваете это как зависимую переменную в своем анализе. Затем вы обнаруживаете, что эффект от лечения (лекарство против плацебо) незначителен, но точка пересечения значительно> 0 - это говорит о том, что в среднем артериальное давление ваших субъектов повышалось между двумя измерениями. Это может быть интересно и требует дальнейшего изучения.


Методология

Чтобы спрогнозировать путь для отдельного Zestimate, мы полагаемся на два разных типа данных. Первый - это прогноз стоимости жилья Zillow на уровне округа, который прогнозирует индекс стоимости жилья Zillow (ZHVI) и рассчитывается с использованием различных экономических и жилищных данных. Прогноз объединяется с данными об индивидуальных характеристиках объекта недвижимости, включая его характеристики и прошлое поведение его Zestimate. В этом разделе методологии основное внимание будет уделено тому, как эти совокупные прогнозы в сочетании с характеристиками собственности используются для построения прогноза для конкретной собственности. В общих чертах, прогноз строится путем сначала формирования прогноза для Zestimate через год (точечный прогноз), который затем интерполируется для построения пути для Zestimate между моментом и временем.


1. Введение

1.1 Терминология

След: непрерывная серия следов, оставленных одним животным.

След: единственный отпечаток, оставленный ступней.

Трек: обычно используется в литературе для описания как отдельного следа, так и тропы.

1.2 Проблема и необходимость изучения популяций пумы

Пума (Puma concolor также широко известный как горный лев, пума, пантера, катамунт) является наиболее широко распространенным наземным млекопитающим на свободном выгуле в Северной и Южной Америке, от Северной Канады до Южных Анд. Как и другие загадочные плотоядные животные с большими территориями, популяции пумы, как известно, трудно изучать [1]. Несмотря на проблемы, агентствам, ответственным за управление пумами, часто ставят задачу оценить их популяцию [2]. Потребность в надежных данных о популяциях пум привела к разработке ряда исследовательских подходов, включая: отлов-повторную поимку [3,4], экстраполяцию данных об улове охотниками [2], сравнение уловов и демографических данных [5], камеры съемка трапеций [6,7], подсчет следов снежного покрова [8] и несколько вариантов съемок следов [9–11]. Однако у каждого из этих методов есть недостатки, которые не позволяют его широко использовать.

Хотя оценки абсолютной численности (общего числа животных в популяции) обычно предпочтительнее, чем показатели относительной численности, первые обычно требуют идентификации отдельных животных. Распространенный метод выявления отдельных пум в свободно распространяющейся популяции, отлов-метка-повторная поимка, является чрезмерно дорогостоящим для широкомасштабного практического использования [12]. Следовательно, исследователи часто используют индексы относительной численности (количество следов или следов, добыча охотников и т. Д.), Которые, будучи более доступными, могут быть менее надежными и редко определяют истинную взаимосвязь между индексом и реальной популяцией [4].

1.3 Риски и недостатки инвазивных методов мониторинга

Инвазивные методы обследования, такие как отлов пу с собаками или силками, часто используются, когда необходимы оценки абсолютной численности популяции, но они могут привести к прямым физическим травмам или смерти [13,14].

Есть и менее очевидные последствия инвазивных методов обследования. Например, повторяющаяся стимуляция адренокортикальной оси млекопитающих внешними стрессорами в стандартных процедурах захвата-меток-высвобождения может привести к глубоко негативным эффектам на ряд физиологических систем, включая иммунную и репродуктивную системы [15-17]. Процесс иммобилизации, и особенно повторная иммобилизация, также может иметь неожиданные последствия для поведения, включая сокращение дальности действия у черных медведей [18], ухудшение кондиции тела у белых медведей [19] и изменения в соотношении полов потомства водных полевок [20]. ]. Кроме того, радио- и GPS-ошейники могут стать причиной травм или даже смерти у различных видов животных, в том числе у африканских диких собак [21], лисиц [22], оленей-мулов [23] и черных носорогов [24]. Подробный обзор предоставлен Мюрреем и Фуллером [25].

Специалисты по охране природы также все больше осознают проблемы благополучия и этические аспекты мониторинга [26], а также то, что инвазивные подходы могут также поставить под угрозу достоверность данных, которые они собирают.

1.4 Использование косвенных признаков для мониторинга

Косвенные признаки (следы, помет, гнезда и т. Д.) Могут быть наиболее эффективным и наименее затратным способом обнаружения многих животных [12,27]. Следы животных гораздо чаще встречаются в полевых условиях, чем сами животные, и служат основой для индексов и оценок популяций [12,28,29]. Обследования следов (также называемые обследованиями следов) также неинвазивны: животное не нужно видеть, ловить или трогать.

1.5 Неинвазивные подходы, используемые для изучения популяций пумы

Исследователи использовали по крайней мере три неинвазивных метода для изучения популяций пумы: фотоловушки, генетический анализ волос и помета и обследования следов [30]. Фотоловушки использовались для идентификации отдельных животных путем анализа пятен и полос [31,32], но они могут недооценивать численность хищников [7]. Поскольку у пумы нет отличительных знаков, точная идентификация по изображениям с фотоловушки с большими размерами выборки оказалась трудной [6,33]. Также использовалась генетическая идентификация индивидов по пометам и волосам [34–36], но пометы пумы бывает трудно найти в полевых условиях. Некоторые исследователи успешно использовали собак для обнаружения помета для повышения уровня обнаружения [37], однако собаки с пометом требуют значительного обучения и ухода, что может быть недопустимым для некоторых менеджеров.

1.6 Предыдущие попытки классифицировать следы по индивидууму и полу

В литературе есть много сообщений об усилиях по решению этой проблемы путем идентификации особей широкого спектра видов по их следам, в том числе: рыбак, Martes pennanti [38] тигр, Пантера тигр [39–42] черный носорог, Diceros bicornis [43] белый носорог, Ceratotherium simum [28] снежный барс, Panthera uncia [41] ягуар, Panthera onca [44] бурый медведь Ursus arctos [45,46] и куница лесная, Martes martes [47]. Кроме того, Stander et al. Сообщили о необычайной способности экспертов из числа коренных народов определять людей по следам. [48].

Следы также использовались для классификации тигров и пум по полу. Ранние работы были сосредоточены на описании формы следов [40,49,50]. На смену этому пришел более количественный подход, основанный на простом сравнении измерений [51–54]. Более поздние работы были сосредоточены на статистическом анализе одного или нескольких измерений [42,55,56].

1.7 Предыдущие исследования следов puma

Исследователи попытались использовать отпечатки ног для идентификации и пола отдельных пум [57–60]. Насколько нам известно, Смоллвуд и Фитцхью [60] первыми опубликовали объективный математический метод различения индивидуальных следов пумы с помощью измерений. Их метод был основан на измерениях, сделанных по следам, сделанным в полевых условиях, и был успешно протестирован с девятью пумами, находящимися на свободном расстоянии. Grigione et al. [57] усовершенствовали технику, разработанную Смоллвудом и Фитцхью [60], и успешно протестировали ее на известной популяции из 10 пум. Lewison et al. [58] подтвердили методологию, представленную Смоллвудом и Фитцхью, с помощью отпечатков ног, сделанных с гипсовых слепков, снятых со ступней 13 пум. Однако жесткость гипсовых слепков отличается от гибкости ног живых животных и не может быть идеальной заменой естественных полевых условий. Хотя эти проекты продемонстрировали первоначальный успех, их небольшие размеры выборки и сложные методологии по-прежнему ограничивают широкое применение в полевых условиях.

1.8 Метод идентификации следа (FIT)

Программное обеспечение Footprint Identification Technique (FIT) позволяет идентифицировать пумы по полу и индивидуально, используя алгоритм классификации, основанный на измерениях расстояния, угла и площади, взятых между анатомически полученными точками на отпечатке. Программное обеспечение было разработано для мониторинга черного носорога [28,43], но впоследствии было адаптировано для широкого круга видов [61].

Насколько нам известно, представленный здесь FIT является первой системой для идентификации отдельных пум, основанной на большом обучающем наборе данных (535 следов 35 уникальных животных), и первой, в которой все аналитические процессы инкапсулированы в программном обеспечении. пакет со встроенным графическим пользовательским интерфейсом.

Алгоритм FIT puma основан на предыдущих подходах к классификации следов пумы в следующих отношениях:

1.8.1 Использовал большой обучающий набор для разработки наиболее подходящего алгоритма.

Программа FIT вывела алгоритм наилучшего соответствия из большого обучающего набора следов, в данном случае из 35 известных индивидуальных пум (известные индивидуальные пумы, использованные в предыдущих исследованиях: Smallwood and Fitzhugh [60] n = 9, Grigione [57]) n = 3, Льюисон [58] n = 13). Алгоритм FIT определяет, какие измерения (переменные) следа могут различать людей, используя надежный дискриминантный анализ с перекрестной проверкой, который используется в модели кластеризации Уорда.

1.8.2 Извлечено больше данных из каждого следа.

FIT извлек больше данных из каждого следа, тем самым увеличив потенциальное разрешение и точность индивидуальной классификации. Программа сгенерировала 123 морфометрических переменных из каждого следа, включая площади, длину и углы (переменные, проанализированные в предыдущих исследованиях: Смоллвуд и Фитцхью [60] n = 11, Grigione [57] n = 9, Lewison [58] n = 17). Большое количество переменных было использовано для разработки более надежного набора обучающих данных, чем это было возможно ранее.

1.8.3 Проанализировано больше следов на одно животное.

Для создания исходной базы данных обучающих наборов алгоритма FIT использовала среднее значение от 14 до 16 левых задних следов от каждого животного, чтобы скорректировать индивидуальную изменчивость следов.

1.8.4 Разработан интегрированный программный интерфейс.

The FIT employs a user-friendly integrated software interface to a new customized statistical model, providing minimal risk of subjective interpretation.

1.8.5 Integrated algorithm validation.

The FIT software provides integrated algorithm validation in the form of sequential data holdout testing, by randomly apportioning the data into training and test sets.

1.8.6 Provided a standardized protocol for data collection.

Data collection uses a simple, standardized digital protocol for photographing footprints [28].

The overall aim of this research was to demonstrate the potential utility of a new monitoring tool for widespread application in large felid populations, using the puma as a model. This was successfully met.


Background & Summary

Critical infrastructures (CIs) are physical or virtual assets or systems of assets that are vital to ensuring health, well-being and security of people and whose disruption or destruction may undermine communities or countries at large 1,2 . They include (and are not limited to) infrastructure related to transport, energy generation and transmission, water, industry, education and health, information and communication technology. Exposure of CIs to hazards poses a risk to economies and societies 3,4,5 . Recent events, such as the Eyjafjöll volcanic eruption in Iceland in 2010 6 , the Great East Japan Earthquake in 2011 7 , and Hurricane Harvey in the Unites States in 2017 8 , have shown how disruption of key systems and essential services can lead to substantial socio-economic impacts. The main threats presented by hazards to CIs include damage or destruction from extreme events 9,10,11,12,13 , whose effects can be exacerbated when multiple hazards co-occur 14,15,16,17 . Dependency networks of CIs may further amplify economic damages and trigger cascading failures 18 with possible global scale effects 16,19,20 . This is of particular concern for Europe, as the severity and frequency of weather-related hazards is expected to intensify in view of climate change 21 .

The development of reliable and resilient infrastructure is among the United Nations’ Sustainable Development Goals 22 . Besides, there is increasing interest in identifying and assessing disaster risk at large scale, expressed by the Sendai Framework for Disaster Risk Reduction 2015–2030 23 and the Decision on a European Union Civil Protection Mechanism 24 that calls participating states to perform National Risk Assessments with periodic reporting. The aim of the latter is to promote an effective and coherent approach to prevention of and preparedness for disasters.

Risk assessment requires the integration of hazard, exposure and vulnerability 25 . The hazard represents the agent that may affect CIs, exposure refers to the spatial distribution of CIs and their associated services exposed to the hazard, and vulnerability expresses the propensity of CIs to be affected by the hazard. Typically, a risk assessment consists in overlaying geospatial information on infrastructures and key socioeconomic assets with hazard maps.

Information on the spatial distribution of CIs is, therefore, a prerequisite for quantifying hazard risk to CIs and planning suitable risk reduction measures in order to safeguard CIs and ultimately secure the functioning of societies 26 . However, geospatial data on CIs is often incomplete and scattered across multiple and inconsistent data sources, thus hampering their integration in large-scale risk frameworks. The European Pollutant Release and Transfer Register (E-PRTR), for instance, contains the location of industrial, energy and waste treatment facilities. Its original scope was to monitor emissions of pollutants from the main emitters hence, facilities whose emissions levels fall under a certain threshold are not included, regardless of their economic importance. Other sources, such as the voluntary geographical information project Open Street Map (OSM), or the proprietary navigation dataset TomTom Multinet miss many features of the real world, especially those deemed less interesting to the average user. Data completeness differs between data sources and across domains or geographical areas within the same data source. Furthermore, information on data quality and completeness often does not exist due to the lack of benchmarks and validation efforts.

Data inconsistency may arise in various ways: different nomenclatures and/or mapping criteria across data sources or types of critical infrastructures. For example, transport infrastructure can be represented in a Geographical Information System (GIS) using alternative data structures: roads or railways are typically represented by line segments, while ports and airports by points or polygons. Such variety in format and spatial representation raises a series of technical problems for their use in a common risk assessment framework. How, for example, can a port represented as point feature in a GIS be compared to 1 km of road? How can 1 km of motorway be compared to 1 km of local road? How can a metal industry be compared to a refinery, or a hospital to a school? In order to compare impacts of a given hazardous event on different infrastructure types and sectors using a consistent methodology applicable at large scale, there is need for harmonized exposure information.

Here, we describe and make publicly available the ‘HARmonized grids of Critical Infrastructures in EUrope’ (HARCI-EU) 27 , employed in a previous study to quantify future risks to CIs in Europe due to climate extreme events 5 . To solve the referred data completeness and inconsistency issues, we integrate CIs-relevant geospatial data from state-of-the-art sources with national-scale statistics of their productivity or use. HARCI-EU is a novel, coherent representation of CIs in Europe, consisting of 22 grid maps at 1 km spatial resolution, covering the transport, energy, industry and social sectors. Each map represents the spatial distribution of a given infrastructure type expressed in sector-specific economic units.

According to the relevant European Directive 1 , CIs in the energy and transport sectors were deemed priority for their identification, designation and protection. Although HARCI-EU goes beyond these two sectors alone, it is not a complete account of all possible CIs in existence. While there is no ultimate list or classification of CIs, the United States Presidential Policy Directive on CI Security and Resilience, for example, cites 16 sectors of CIs, some of which are not included in HARCI-EU (e.g. defence, food, finance, water supply) 28 . Notwithstanding, the high spatial and thematic resolution and coverage make HARCI-EU a useful exposure dataset for assessing the risks of hazards to critical infrastructures in Europe. Future developments should focus on expanding HARCI-EU to encompass further CI categories.


UsSEABED

usSEABED is the collaborative product of the U.S. Geological Survey, the University of Colorado, and other partners, and provides integrated data from small and large marine research efforts by many entities—federal and state agencies, local authorities, universities, as well as private and public consortiums.

Information about seafloor characteristics from the beach to the deep sea improves the understanding of interactions between land and sea, effects of river discharge and sea level changes, distributions of benthic flora and fauna, location and type of resources, potential consequences of human activities on the oceans, and other critical issues. Large- and small-scale maps of the seabed, as well as reliable data over broad geographical areas, allow for integrated insights into these issues and more.

To assist in addressing these issues, the USGS and the University of Colorado have created usSEABED. The usSEABED datasets currently hold georeferenced point data for more than 300,000 data sites in U.S. waters from the beach to the deep sea, rivers, lakes, and estuaries. In usSEABED, existing data from the USGS and other research groups are processed and extended to maximize their density and usability creating unified, comprehensive, relationally linked datasets for mapping and analysis. Source data include surficial and subbottom data from physical sampling equipment (grabs and cores) and virtual sampling such as descriptions from seafloor photographs and videos.

In addition to quantified lab-derived data, the datasets of usSEABED also include estimated numeric values for those typical seabed characteristics—noted above—based on the extensive accumulation of word-based data in U.S. waters. These data are rich in information, but were previously difficult to quantify, map, plot, or use in comparative analyses or models.

These descriptive data—from short sentences, small essays, or single phrases—are treated as a mathematical equation that is considered as a whole. Filters based on fuzzy set theory assign relative weight to each word in the description, and estimate the values of textural and other parameters. In addition, the textural implications of non-textural terms—such as 'broken shells' or Halimeda—are included in the calculation of grain-size parameters.

The resulting numeric data, now useable in a GIS or model, should be considered "fuzzy" that is, they give an approximation—not a rigorous measurement—of the assessed values.