Более

3.3: Поиск данных - Науки о Земле


Цели обучения

  • Цель этого раздела - выявить и оценить ключевые факторы при поиске данных.

Теперь, когда у нас есть базовое представление о данных и информации, где мы можем найти такие данные и информацию? Хотя поиск в Интернете, безусловно, приведет к множеству источников и типов данных, поиск релевантных и полезных данных часто является сложным и повторяющимся процессом. Поэтому, прежде чем переходить в Интернет и загружать первое, что появляется в результате веб-поиска, полезно ограничить наш поиск данных следующими вопросами и соображениями:

  1. Что точно цель данных? Учитывая тот факт, что мир плавает в огромных объемах данных, формулировка того, почему нам нужен (или почему нам не нужен) определенный набор данных, упростит поиск полезных и релевантных данных. С этой целью, чем точнее мы можем указать цель необходимых данных, тем эффективнее будет наш поиск данных. Например, если мы заинтересованы в понимании и изучении экономического роста, полезно определить как временные, так и географические масштабы. Другими словами, для каких периодов времени (например, 1850–1900) и интервалов (например, ежеквартально, ежегодно) нас интересуют и на каком уровне анализа (например, национальный, региональный, штатный)? Часто доступность данных или, более конкретно, их отсутствие заставляет нас изменить цель или объем нашего исходного вопроса. Четкая цель приведет к более эффективному поиску данных и позволит нам быстро принимать или отклонять различные наборы данных, с которыми мы можем столкнуться.
  2. Второй вопрос, который нам нужно задать себе, - какие данные уже существуют и к каким данным у нас уже есть доступ? Перед поиском новых данных всегда полезно провести инвентаризацию данных, которые у нас уже есть. Такие данные могут быть получены из предыдущих проектов или анализов, или от коллег и одноклассников, но ключевым моментом здесь является то, что мы можем сэкономить много времени и усилий, используя данные, которые у нас уже есть. Кроме того, определяя, что у нас есть, мы лучше понимаем, что нам нужно. Например, хотя у нас уже могут быть данные переписи (т.е. атрибутные данные), нам могут потребоваться обновленные географические данные, которые содержат границы штатов или округов США.
  3. Затем нам нужно оценить и оценить затраты, связанные со сбором данных. Затраты на сбор данных выходят за рамки финансовых затрат. Не менее важны, чем финансовые затраты на данные, и те, которые требуют вашего времени. В конце концов, время - деньги. Время и энергия, которые вы тратите на сбор, поиск, очистку и форматирование данных, - это время и энергия, потраченные на анализ данных. В зависимости от сроков, временных ограничений и результатов очень важно научиться управлять своим временем при поиске данных.
  4. Наконец, решающее значение имеет формат необходимых данных. Хотя многие программы могут читать данные многих форматов, существуют некоторые типы данных, которые могут быть прочитаны только некоторыми программами, а некоторые программы требуют определенных форматов данных. Понимание того, какие форматы данных можно использовать, а какие нельзя, поможет в поиске данных. Например, одна из наиболее распространенных форм данных географической информационной системы (ГИС) называется шейп-файл. Не все программы ГИС могут читать или использовать шейп-файлы, но может потребоваться преобразование в или из шейп-файла или другого формата. Следовательно, как отмечалось ранее, чем больше форматов данных мы знакомы, тем лучше мы будем искать данные, потому что у нас будет понимание не только того, что мы можем использовать, но и того, какие преобразования форматов необходимо будет выполнить. если необходимо.

Все эти вопросы одинаково важны, и возможность ответить на них поможет более эффективному и результативному поиску данных. Очевидно, что есть несколько других соображений, стоящих за поиском данных, и в частности данных ГИС, но перечисленные здесь обеспечивают начальный путь к успешному поиску данных.

По мере развития информационных технологий и сбора и распространения все большего и большего количества данных увеличивается количество различных форм данных, которые можно использовать с ГИС. Как правило, как обсуждалось ранее, ГИС использует и интегрирует два типа данных: географические данные и данные атрибутов. Иногда источник как географических, так и атрибутивных данных один и тот же. Например, Бюро переписи населения США (http://www.census.gov) распространяет файлы географических границ (например, уровень участка переписи, уровень округа, уровень штата), а также связанные данные атрибутов (например, население, раса / этническая принадлежность, доход). Более того, такие данные доступны бесплатно. Во многих отношениях данные переписи населения США исключительны: они бесплатны и полны. Если бы все данные были бесплатными и исчерпывающими!

Очевидно, что каждый поиск данных будет варьироваться в зависимости от цели, но данные от правительств, как правило, имеют хороший охват и служат точкой отсчета, из которой можно добавлять, сравнивать и оценивать другие данные. Если вам нужны спутниковые снимки от Национального управления по аэронавтике и исследованию космического пространства (http://www.nasa.gov) или данные о землепользовании от Геологической службы США (http://www.usgs.gov), такие правительственные источники обычно быть надежным, уважаемым и последовательным. Еще одним ключевым элементом большинства правительственных данных является то, что они находятся в свободном доступе для общественности. Другими словами, использование или получение данных бесплатно. Данные, которые можно использовать бесплатно, обычно называют общедоступные данные.

В отличие от общедоступных данных, существует множество источников частный или собственные данные. Основное различие между общедоступными и частными данными заключается в том, что первые, как правило, бесплатны, а последние должны приобретаться за плату. Кроме того, часто существуют ограничения на перераспределение и распространение закрытых наборов данных (т. Е. Совместное использование приобретенных данных не допускается). Опять же, в зависимости от предмета, конфиденциальные данные могут быть единственным вариантом. Еще одна причина использования закрытых данных заключается в том, что они могут быть отформатированы и очищены в соответствии с вашими потребностями. Компромисс между финансовыми затратами и сэкономленным временем - это то, что необходимо серьезно рассмотреть и оценить при работе со сроками.

Поиск данных, и в частности данных, которые вам нужны, часто является наиболее трудоемким аспектом любого проекта, связанного с ГИС. Следовательно, очень важно попытаться определить и уточнить ваши требования и потребности в данных - от временного и географического масштабов данных до требуемых форматов - как можно более четко и как можно раньше. Такое определение и ясность принесут дивиденды в вашем поиске правильных данных, что, в свою очередь, приведет к лучшему анализу и принятию обоснованных решений.

КЛЮЧЕВОЙ ВЫВОД

  • Перед поиском данных задайте себе следующие вопросы: Зачем мне эти данные? В каком масштабе времени мне нужны данные? В каком географическом масштабе мне нужны данные? Какие данные уже существуют? В каком формате мне нужны данные?

УПРАЖНЕНИЯ

  1. Определите пять возможных источников данных о валовом внутреннем продукте (ВВП) для стран Африки.
  2. Определите два источника географических данных (файлы границ) для Африки.
  3. Какие географические данные предоставляет Организация Объединенных Наций?


Смотреть видео: Предпосылки проникновения лженауки в геологию и другие науки о земле. Иван Хархордин. Лекториум (September 2021).