Технологии распределённой обработки данных

Лекция 5.

ТЕХНОЛОГИИ ИНТЕГРИРОВАННЫХ ИНФОРМАЦИОННЫХ

СИСТЕМ ОБЩЕГО НАЗНАЧЕНИЯ

 

Технологии геоинформационных систем

В настоящее время всё большее распространение получают технологии геоинформационных систем (ГИС), предназначенных для обработки всех видов данных, включая географические и пространственные.

Данные, которые описывают любую часть поверхности земли или объекты, находящиеся на этой поверхности, называются географическими данными. Они показывают объекты с точки зрения размещения их на поверхности Земли, то есть представляют собой географически привязанную карту местности.

Пространственные данные - данные о местоположении, расположении объектов или распространении явлений - представлены в определённой системе координат, словесном и числовом описании. Каждый объект (страна, регион, город, улица, предприятия, сельхозугодий, дороги и т.д.) описывается путём присвоения ему атрибутов и операций.

Атрибуты - текстовые, числовые, графические, аудио - видео данные.

Дня работы геоинформационных систем требуются мощные аппаратные средства: запоминающие устройства большой ёмкости, системы отображения, оборудование высокоскоростных сетей.

В основе любой геоинформационной системы лежит информация о каком-либо участке земной поверхности: стране, континенте или городе. База данных организуется в виде набора слоев информации. Основной слой содержит географические данные (топо-основу). На него накладывается другой слой, несущий информацию об объектах, находящихся на данной территории: коммуникации, промышленные объекты, коммунальное хозяйство, землепользование, почвы и другие пространственные данные. Следующие слои детализируют и конкретизируют данные о перечисленных объектах ,пока не будет дана полная информация о каждом объекте или явлении.

В процессе создания и наложения слоев друг на друга между ними устанавливаются необходимые связи, что позволяет выполнять пространственные операции с объектами посредством моделирования и интеллектуальной обработки данных.

Как правило, географические данные представляются графически в векторном виде, что позволяет уменьшить объём хранимой информации и упростить операции по визуализации. С графической информацией связана текстовая, табличная, расчётная информация, координационная привязка к карте местности, видеоизображения, аудио комментарии, база данных с описанием объектов и их характеристик.

Геоинформационная система позволяет извлечь любые типы данных, визуа­лизировать их. Многие ГИС включают аналитические функции, которые позволяют моделировать процессы, основываясь на картографической информации.

Программное ядро геоинформационных систем состоит из ряда компонентов. Они обеспечивают ввод пространственных данных, хранение их в многослойных базах данных, реализацию сложных запросов, пространственный анализ, вывод твердых копий, просмотр введённой ранее и структурированной по правилам доступа информации, средства преобразования растровых изображений в векторную форму, моделирование процессов распространения загрязнений, моделирование геологических и других явлений, анализ рельефа местности и многое другое.

Основными сферами применения геоинформацинных систем являются:

· геодезические, астрономо-геодезические и гравиметрические работы;

· топологические работы:

· картографические и картоиздательские работы:

· аэросъёмочные работы;

· формирование и ведение банков данных перечисленных выше работ для всех уровней управления:

· отображение политического устройства мира;

· формирование атласа автомобильных и железных дорог, границ РФ и зарубежных стран, экономических зон и т.д.

В экономической сфере технологии геоинформационных систем обеспечивают:

· налоговым и страховым службам выполнение их функций, так как предоставляют наглядную информацию о нахождении подведомственных предприятий и их характеристику;

· отслеживание финансовых потоков в банковской сфере;

информационное обеспечение при строительстве автомобильных и железных дорог и в других сферах, где требуется работать с географическими и пространственными данными.

 

Технологии распределённой обработки данных

Одной из важнейших сетевых технологий является распределённая обработка данных. Персональные компьютеры стоят на рабочих местах, то есть на местах возникновения и использования информации. Они связаны сетью, что даёт возможность распределить их ресурсы по отдельным функциональным сферам деятельности и изменить технологию обработки данных в направлении децентрализации. Распределённая обработка данных позволяет повысить эффективность удовлетворения изменяющейся информационной потребности информационного работника и, тем самым, обеспечить гибкость принимаемых им решений. Преимущества распределённой обработки данных выражаются в:

· увеличении числа взаимодействующих пользователей, выполняющих функции сбора, обработки, хранения, передачи информации:

· снятии пиковых нагрузок с централизованной базы путём распределения обработки и хранения локальных баз данных на разных компьютеров:

· обеспечении доступа информационному работнику к вычислительным ресурсам сети компьютеров:

· обеспечении симметричного обмена данными между удаленными пользователями.

    Формализация концептуальной схемы данных повлекла за собой возможность классификации моделей представления данных на иерархические, сетевые и реляционные.

Это отразилось в понятии архитектуры систем управления базами данных (СУБД) и технологии обработки. Архитектура СУБД описывает её функционирование как взаимодействие процессов двух типов: клиента и сервера.

Распределённая обработка и распределённая база данных - не являются синонимами. Если при распределённой обработке производится работа с базой. то подразумевается, что представление данных, их содержательная обработка, работа с базой на логическом уровне выполняются на персональном компьютере клиента, а поддержание базы в актуальном состоянии - на файл-сервере.

Распределённая база данных размещается на нескольких серверах. Для доступа к удалённым данным надо использовать сетевую СУБД. В системе распределённой обработки клиент может послать запрос к собственной локальной базе или удалённой.

Удалённый запрос - это единичный запрос к одному серверу. Несколько удалённых запросов к одному серверу объединяются в удалённую транзакцию. Если отдельные запросы транзакции обрабатываются различными серверами, то транзакция называется распределённой. При этом один запрос транзакции обрабатывается одним сервером. Если один запрос транзакции обрабатывается несколькими серверами, он называется распределённым. Только обработка распределённого запроса поддерживает концепцию распределённой базы данных.

 

Существуют разные технологии распределённой обработки данных.

Первой технологией распределённой обработки данных была технология файл - сервер. По запросу клиента файл - сервер пересылает весь файл. Целостность и безопасность данных не обеспечивается. Файл - сервер содержит базу данных и файловую систему для обеспечения многопользовательских запросов.

Сетевые СУБД, основанные на технологии файл-сервер, недостаточно мощны. В нагруженной сети неизбежно падает производительность, нарушается безопасность и целостность данных. Проблема производительности возникла потому, что файл-серверы реализуют принцип «всё или ничего». Полные копии файлов базы перемещаются вперед-назад по сети. Проблемы с безопасностью, целостностью возникни из-за того, что с самого начала файл-серверы не были сконструированы с учётом целостности данных и их восстановления в случае аварии.

На смену пришла технология клиент-сервер. Технология клиент-сервер является более мощной, так как позволила совместить достоинства однопользовательских систем (высокий уровень диалоговой поддержки, дружественный интерфейс, низкая цена) с достоинствами более крупных компьютерных систем (поддержка целостности, защита данных, многозадачность). Она за счёт распределения обработки транзакций между многими серверами повышает производительность, позволяет пользователям электронной почты распределять работу над документами, обеспечивает доступ к более совершенным доскам объявлений и конференциям.

Основная идея технологии клиент-сервер заключается в том, чтобы расположить серверы на мощных, а приложения клиентов, использующих язык инструментальных средств, - на менее мощных компьютерах. Тем самым задействованы ресурсы более мощного сервера и менее мощных компьютеров клиентов. Файл-сервер заменён сервером баз данных, который содержит базу данных, сетевую операционную систему, сетевую СУБД.

Ввод-вывод к базе основан не на физическом дроблении данных, а на логическом, т.е. клиентам отправляется не полная копия базы, а логически необходимые порции, тем самым сокращается трафик сети.

Трафик сети - это поток сообщений в сети. В технологии клиент-сервер программы клиента и его запросы хранятся отдельно от сетевой СУБД. Сер­вер баз данных обрабатывает запросы клиентов, выбирает необходимые данные из базы, посылает их клиентам по сети, производит обновление информации, обеспечивает целостность и безопасность данных. Для доступа к серверу баз данных и манипулирования данными применяется язык запросов SQL.

Платформу сервера баз данных определяют операционная система компьютера клиента и сетевая операционная система. Каждый сервер баз данных может работать на определённом типе компьютера и сетевой операционной системе. Операционные системы серверов - это Unix, Windows NT , Linux и др. В настоящее время наиболее популярными являются  Microsoft SQL-server, SQL base-server, Oracle-serverи др.

Совмещение гипертекстовой технологии с технологией реляционных баз данных позволило создать распределённые гипертекстовые базы данных.Разрабатываются гипертекстовые модели внутренней структуры базы данных и размещения баз данных на серверах. Гипертекстовые базы данных содержат гипертекстовые документы и обеспечивают самый быстрый доступ к удалённым данным. Гипертекстовые документы могут быть текстовыми- цифровыми, графическими, аудио и видео файлами. Тем самым создаются распределённые мультимедийные базы.

Гипертекстовые базы данных созданы по многим сферам человеческой деятельности. Практически ко всем обеспечивается доступ через Интернет. Примерами гипертекстовых баз данных являются правовые системы: Гарант, Юсис, Консультант + и др.

Рост объёмов распределённых баз данных выявил следующие проблемы их использования:

· управление распределёнными системами очень сложное, и инструментов для него катастрофически не хватает;

· сложные распределённые решения обходятся дороже, чем планировалось;

· производительность многих приложений в распределённых системах недостаточна;

· усложнилось решение проблем безопасности данных.

 

Решением этих проблем становится использование больших компьютеров, называемых мэйнфреймами. Мэйнфреймы являются основой для создания информационных хранилищ.

 

Информационные хранилища

Использование баз данных не даёт желаемого результата от автоматизации деятельности предприятия. Причина проста: реализованные функции значительно отличаются от функций ведения бизнеса, так как данные, собранные в базах, не адекватны информации, которая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ (складов данных).

Информационное хранилище (data warehouse) - это автоматизированная система, которая собирает данные из существующих внутренних баз предприятия и внешних источников, формирует, хранит и эксплуатирует информацию как единую.

    К внутренним базам данных предприятия относятся локальные базы предметных приложений и подсистем ИС. К внешним - любые данные, доступные по Интернету и размещённые на Web-серверах предприятий-конкурентов, правительственных и законодательных органов, других учреж­дений. Информационное хранилище представляет собой совокупность про­граммно-аппаратных средств, позволяющих предоставлять данные в целост­ном виде для последующего анализа и принятия управляющих решений.

Отличие реляционных баз данных, используемых в ИС, от информационного хранилища заключается в следующем:

· Реляционные базы данных содержат только оперативные данные предприятия. Информационное хранилище обеспечивает доступ, как к внутренним данным предприятия, так и к внешним источникам данных, доступных по Интернету.

· Модели данных реляционных баз ориентированы на предметные и функциональные приложения ИС. Они обеспечивают запросы оперативных данных предприятия. Информационные хранилища поддерживают большое число моделей данных, включая многомерные и ЕR-модели, что обеспечивает исторические запросы (запросы за прошлые годы и десятилетия), запросы как к оперативным данным предприятия, так и к данным внешних источников, запросы аналитических (агрегированных) данных для анализа тенденций и принятия стратегических решений.

· Данные информационных хранилищ хранятся не только на сервере, но и на вторичных устройствах хранения.

Для доступа и размещения данных на устройствах, используемых для организации информационных хранилищ, разработано много файловых систем. Из них можно выделить системы НSМ (Hierarchycal Storage Management) и DM(Data Migration). НSМ реализует функции иерархического хранилища Data Migration -миграции данных.

НSМ - система создаёт как бы «продолжение» дискового пространства файлового сервера на вторичных устройствах (библиотеках - автоматах), доступного приложениям.

 

5 - Организация HSМ-системы

 

При конфигурации НSМ указывается размер пространства на сервере, отводимого под буфер для обмена с оптическими библиотеками. Как только это пространство становится занятым и требуется подкачка новых данных из оптической библиотеки-автомата, реализуется алгоритм миграции данных: наименее используемые файлы с сервера переносятся в библиотеку-автомат, освободившееся пространство передаётся буферу. Из библиотеки в буфер перекачиваются требуемые файлы. Если приложение обратится к «унесённому» файлу, НSМ повторяет алгоритм миграции. Все перемещения выполняются автоматически и приложения «не подозревают» о наличии вторичных устройств хранения. Смена оптических дисков в библиотеках-автоматах позволяет неограниченно увеличивать базу данных.

Для хранения данных в информационных хранилищах обычно используются выделенные серверы, кластеры серверов (группа накопителей, видеоустройств с общим контроллером), мейнфреймы.

Для доступа к серверам требуются технологии, удовлетворяющие следую­щим условиям:

· малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, второй - ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределённым. Для обычных данных такая задержка не существенна, а для мультимедийных - существенна;

· высокая пропускная способность. Так как данные для ответа могут находиться в разных базах на значительных расстояниях друг от друга, требуется время на синхронизацию при формировании ответа. Поэтому для обеспечения сбалансированной нагрузки требуется скорость передачи не менее 100 Мега бит/сек;

· надёжность. При работе с кластерами серверов интенсивный обмен данными требует, чтобы вероятность потери пакета была очень мала;

· возможность работы на больших расстояниях. Если серверы кластера удалены друг от друга, то требуется технология, обеспечивающая передачу со скоростью не менее 100 Мбит с на расстояние 1 км.

Всем этим требованиям удовлетворяет АТМ-технология, технологии Fast Ethernet, Fibre Channel и др.

При слиянии данных из разных источников и размещении их в информационном хранилище обеспечивается:

· Предметная ориентация. Данные организованы в соответствии со способом их представления в предметных приложениях. В отличие от локальных баз информационное хранилище содержит агрегированные данные приложении и не содержат ненужной с точки зрения анализа информации, что значительно сокращает объемы хранимой информации.

· Целостность и внутренняя взаимосвязь. Хотя данные погружаются из разных внутренних и внешних источников, они объединены едиными законами наименования, способами измерения размерностей и т.д. В разных источниках одинаковые по наименованию данные могут иметь разные формы представления (например, даты) пли названия (например, «вероятность доведения информации» в одном источнике и «вероятность получения информации» - в другом). Подобные несоответствия удаляются автоматически.

· Отсутствие временной привязки. Оперативные базы предприятия содержат данные за небольшой интервал времени (неделя, месяц), что достигается за счет периодического архивирования данных. Информационное хранилище содержит исторические данные, накопленные за большой интервал времени (года, десятилетия).

· Упорядоченность во времени; данные согласуются во времени (например, приводятся к единому курсу рубля на текущий момент) для использования в сравнениях, трендах и прогнозах.

· Неизменяемость. Данные не обновляются и не изменяются, а только перезагружаются и считываются из источников на сервер, поддерживая концепцию «одного правдивого источника». Данные доступны только для чтения, так как их модификация может привести к нарушению целостности данных хранилища.

Таким образом, данные, погруженные в хранилище, организуясь в интегрированную целостную структуру, обладающую естественными внутренними связями, приобретают новые свойства, придающие им статус информации. Они являются основой для построения аналитических систем и систем поддержки принятия решений. Именно поэтому технологии информационных хранилищ ориентированы на руководителей, ответственных за принятие решений.


Дата добавления: 2022-01-22; просмотров: 47; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!