ГИС представляется как совокупность методов и средств для управления и анализа пространственных и связанных с ними атрибу- тивных (тематических) данных и этим отличается от систем картиро- вания и автоматизированного проектирования, а также других инфор- мационных систем [3, 4].
Атрибутивные данные (тематические данные, «атрибутика») – качественные или количественные (негеографические) данные, пред- ставленные в виде свойств или характеристик, относящихся к опре- деленному пространственному объекту базы данных ГИС [5, 6].
41
Атрибутивные данные представляются в виде атрибутов объек- тов, таких как текстовые описания, числовые (метрические) харак- теристики, номера, названия, свойства и т. д. Область атрибутов объектов очень широкая. Это могут быть любые описательные и метрические свойства объекта.
Можно выделить два основных подхода к организации и исполь- зованию атрибутивных данных в ГИС:
в атрибутивных таблицах картографических слоев;
с использованием внешних баз данных, находящихся под управлением СУБД в рамках геореляционной модели ГИС.
В первом случае атрибутивные данные хранятся непосредственно в самом картографическом слое (например, в файле формата dbf шейп-файла). Данный подход используется при организации неболь- ших по объему атрибутивных данных в рамках настольных ГИС. Ис- пользование внешних баз данных оправдано при организации работы с большим объемом атрибутивных данных.
Таблица атрибутов объектов – это особый тип файла данных, хранящий информацию о каждом пространственном объекте цифро- вой карты (точке, дуге или полигоне). Таблица включает заданный набор полей (столбцов) и записей (строк), количество которых равно числу пространственных объектов цифровой карты. Таким образом, одному объекту цифровой карты соответствует одна запись в атрибу- тивной таблице (рис. 2.18).
Одно поле атрибутивной таблицы представляет определенную характеристику объекта (площадь, вид земель, землепользователь и др.). В зависимости от содержания атрибутивных данных полю таб- лицы присваивается определенный тип. Перечень поддерживаемых типов полей зависит от используемого программного обеспечения ГИС и, как правило, меньше, чем в стандартных СУБД. Основными типами полей таблиц атрибутивных данных являются:
числовое – поле, содержащее символы, составляющие допусти- мое целое или вещественное число;
символьное – поле, которое может содержать любую комбина- цию алфавитно-цифровых символов, знаков.
логическое – поле, значения в котором – «Истина» (True) или
«Ложь» (False);
дата – поле, значения в котором содержат 8 цифр, обозначаю- щие год, месяц и дату. Например, дата 12 мая 2013 года будет пред- ставлена как 20130512.
42
Картографический слой
Рис. 2.18. Атрибутивная таблица картографического слоя
Основными типами полей, содержащих подавляющее большин- ство атрибутивных данных, являются числовой и символьный. Ес- ли, значения для некоторого атрибута содержат нецифровые симво- лы, этот тип необходимо определить как символьный; если эти зна- чения цифровые с десятичной точкой или без нее, то тип определя- ют как числовой. При этом любые цифровые значения также могут храниться и как символьные значения, но в этом случае с ними нельзя обращаться как с числами – т. е. производить с ними ариф- метические действия. Например, числовые значения 100 и 200 мож- но сложить и получить в сумме 300, тогда как сумма этих же значе- ний, представленных в виде строк символов «100» и «200» даст символьное значение «100200». Кроме этого при организации за- просов к числовым полям можно пользоваться математическими операторами «больше» («больше или равно»), «меньше» («меньше или равно»), «равно» и «неравно», в то время как при осуществле- нии запросов к символьным полям возможно применение только математических операторов «равно» и «неравно».
Размер атрибута объекта должен быть достаточным для самого
длинного сохраняемого значения и составляет до 254 для символь-
43
ного типа и до 16 для числового типа, включая знак числа и деся- тичную точку.
Весьма важное значение имеет структура файлов для хранения
«атрибутики», поскольку от нее зависит скорость доступа к данным. В процессе эволюции форматов данных ГИС было разработано три структуры: файлы с неупорядоченной структурой хранения данных, файлы с последовательно упорядоченной структурой данных, индек- сированные файлы. При этом файлы первых двух структур характер- ны для ранних версий ГИС-форматов, поскольку отличаются сравни- тельно низкой скоростью доступа к данным. Современные специали- зированные форматы данных ГИС главным образом построены на ин- дексированных файлах данных.
Простейшей структурой файла базы данных является неупорядо- ченный массив записей [1, 4]. Если сравнить такой файл с картотекой (например, библиотеки), то карточки должны находиться в порядке поступления. Единственным преимуществом такой структуры файла является то, что для добавления новой записи, ее нужно просто по- местить в конец файла, позади всех других записей. Поиск требуемой записи в такой структуре осуществляется простым перебором и весь- ма длителен.
В файлах с последовательно упорядоченной структурой данных используется сравнение каждой новой записи с имеющимися для оп- ределения ее места. Такие последовательно упорядоченные файлы могут использовать буквы алфавита или числа. Обычной стратегией поиска здесь является так называемый поиск делением пополам (ди- хотомия). Поиск начинается разделением всего массива записей на две половины и выборкой записи в середине. Если она оказывается той, что нужна, то поиск закончен. Если искомая запись находится выше выбранной, то процедура повторяется с первой половиной, если после – со второй. Таким образом, программе не требуется просмат- ривать большую часть файла, что увеличивает скорость поиска более чем в 10 раз. Однако теперь каждая новая запись должна вставляться в соответствующее место упорядоченной последовательности.
Каждому объекту может быть приписано большое количество ат- рибутов, но при использовании файлов с последовательно упорядо- ченной структурой система не может отсортировать записи в файле одновременно более чем одним способом. И если для того атрибута, по которому отсортирован массив записей, можно применить быст- рый поиск делением пополам, то для всех других придется выполнять последовательный поиск. Для решения данной задачи разработаны
44
индексированные файлы, которые при организации поиска использу- ют внешний индекс (рис. 2.19).
Строится он следующим образом: из исходного файла в новый копируются значения одного атрибута для всех записей и адреса запи- си в исходном файле, из которого это значение было взято. Затем за- писи нового файла упорядочиваются в соответствии со значениями атрибута. Теперь, чтобы найти запись с заданным значением атрибута, можно использовать поиск делением пополам. Найдя нужные записи в индексном файле, система получит адреса записей исходного файла с искомыми атрибутами объектов. Таким образом, для поиска в ос- новном файле используется дополнительный индексный файл, кото- рый называется внешним индексом, а исходный файл становится ин- дексированным. В индексный файл можно выносить несколько атри- бутов.
Рис. 2.19. Индексированный файл. Индекс составлен по ключу «Состояние»
Использование внешнего индекса имеет три условия. Во-первых, нужно знать заранее критерии, по которым будет производиться по- иск, так как для каждого критерия строится свой индексный файл. Во- вторых, ссылки на все добавления в исходный файл должны поме- щаться в соответствующие места индексных файлов, чтобы не нару- шать их упорядоченность. В-третьих, если по какой-либо причине не предусмотрен некоторый критерий поиска, то придется использовать последовательный перебор для получения нужной информации.
Do'stlaringiz bilan baham: |