Корпоративные базы данных экономических информационных систем

Федеральное агентство образования РФ

Московский Государственный Технический Университет "МАМИ"

Факультет экономики

Кафедра

Курсовая работа по ЭИС:

"Корпоративные базы данных электронных информационных систем".

Студентки: Силаевой М.А., 10-ВЭФМе-3

Москва, 2010

Содержание

Введение

1. Корпоративные информационные системы и базы данных

2. OLTP-системы (On-Line Transaction Processing)

3. Хранилища данных (Data Warehouse)

3. Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP)

4. Интеллектуальный анализ данных (Data Mining)

5. Интеграция OLAP и Data Mining

Заключение

Список использованных источников

Введение

Тема исследования данной курсовой работы - корпоративные базы данных ЭИС.

Актуальность данного исследования обусловлена тем, что сейчас наше общество находится в состоянии перехода от индустриального общества к постиндустриальному. Происходит информатизация, т.е. развитие информационных технологий, обеспечивающих достижение и поддержание уровня информированности членов общества, необходимого для улучшения условий жизни в обществе. Для успешного ведения бизнеса в наше время требуется информация. То, как успешно компания использует и управляет информацией, говорит о том, какого успеха эта компания может достигнуть. Невозможно принять верное управленческое решение не подвергая информацию обработке. Обработка данных - это процесс преобразования информации из первоначального вида к определенному результату. Сбор, накопление, хранение информации часто не являются конечной целью информационного процесса. Чаще всего первичные данные привлекаются для решения какой-либо проблемы, затем они преобразуются шаг за шагом в соответствии с алгоритмом решения задачи до получения выходных данных, которые после анализа пользователем предоставляют необходимую информацию.

Цель данного исследования - ознакомление с корпоративными базами данных в учебных целях.

Предмет данной курсовой работы - полезность баз данных, подходящих под классификацию "корпоративные".

Необходимо ли использование подобного рода систем для совершенствования и отлаживания ведения бизнеса - ответ на этот вопрос является объектом исследования.

Теоретическая ценность данной работы заключается в том, что в ней скомпелированны основные понятия о корпоративных базах данных.

Практическая ценность работы состоит в том, что она раскрывает выбранную тему "Корпоративные базы данных" и может использоваться в качестве вспомогательного материала при изучении предмета.

1. Корпоративные информационные системы и базы данных

Во время жизненного цикла корпорации накапливают большие объемы данных, которые несут в себе потенциальные возможности по получению новой аналитической информации. На основе полученной информации необходимо строить стратегию фирмы, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы.

Понять, что такое корпоративные базы данных невозможно без введения двух понятий: экономическая информационная система и корпоративная информационная система, частью которых и являются корпоративные базы данных.

Экономическая информационная система (ЭИС) представляет собой совокупность организационных, технических, программных и информационных средств, объединённых в единую систему с целью сбора, хранения, обработки и выдачи необходимой информации, предназначенной для выполнения функций управления.

Корпоративная информационная система (КИС) - это масштабируемая ЭИС система, предназначенная для комплексной автоматизации всех видов хозяйственной деятельности больших и средних предприятий, в том числе корпораций, состоящих из группы компаний, требующих единого управления. Они являются развитием систем для рабочих групп и ориентированы на крупные компании. Могут поддерживать территориально разнесенные узлы или сети. В основном они имеют иерархическую структуру из нескольких уровней. Для таких систем характерна архитектура клиент-сервер со специализацией серверов или же многоуровневая архитектура. При разработке таких систем могут использоваться те же серверы баз данных, что и при разработке групповых информационных систем. Для групповых и корпоративных систем существенно повышаются требования к надежности функционирования и сохранности данных. Эти свойства обеспечиваются поддержкой целостности данных, ссылок и транзакций в серверах баз. [2] Наиболее существенной чертой комплексной информационной системы должно стать расширение контура автоматизации для получения замкнутой, саморегулирующейся системы, способной гибко и оперативно перестраивать принципы своего функционирования.

На данный момент существует достаточно большое количество разновидностей информационных систем. Классификация информационных систем обычно осуществляется на основе каких-либо выделенных признаков. Например, с точки зрения управленческого уровня, на котором осуществляется использование ИС, принято делить корпоративные ИС на следующие виды:

1. ИС для обеспечения текущих бизнес-операций предназначены для решения задач оперативного учета и контроля бизнес-процессов предприятия. В основном их используют работники компании и их непосредственного начальства. Данные ИС можно разделить на: системы, выполняющие поддержку финансовых операций (так же осуществляющие модернизацию баз данных, обработку данных, формирование отчетов и прочих документов); системы управления процессами, управляющие физическими процессами производства продукции; системы автоматизации офиса (автоматизирующие коммуникации, делопроизводство и производительность офиса, охватывающие обработку текстов, электронную почту, организацию телеконференций, обработку и хранение документов).

2. Системы поддержки процесса принятия решений также имеют три разновидности: системы предоставления информации (предоставляющие менеджерам предопределенные и регламентированные сообщения и отчеты о текущих бизнес-операциях); системы поддержки принятия решений (имеющие в своем составе набор диалоговых и специальных средств проектирования альтернативных решений для использования в непрограммируемых ситуациях); ИС руководителей, обслуживающие менеджеров высшего уровня с целью мгновенного формирования критической информации в свободном формате (информируют о состоянии предприятия по ключевым факторам); ИС для обеспечения стратегических преимуществ дают мгновенный доступ к информации о важнейших факторах, влияющих на достижении фирмой своих задач.

Корпоративные ИС можно классифицировать на основе следующих характеристик:

1. предметная область системы;

2. вид поддерживаемых информационных ресурсов;

3. функции обработки информационных ресурсов;

4. степень детализации предметной области;

5. среда хранения информационных ресурсов;

6. объем информационных ресурсов;

7. степень динамичности информационных ресурсов;

8. состав лингвистических ресурсов системы;

9. архитектура системы;

10. регламент обслуживания пользователей системы;

11. расписание функционирования системы;

12. способы и характер доступа к системе;

13. поддерживаемые стандарты информационных технологий;

14. реализуемые интерфейсы;

15. программно-аппаратная платформа;

16. коммуникационное оборудование;

17. состав программного обеспечения;

18. состав системного персонала;

19. методология и инструментальные средства разработки систем [2].

После ознакомления с сущностью понятия КИС, нужно ввести понятия данных, баз данных и систем управления базами данных (СУБД)

Данные - это формализованное представление информации, доступное для обработки, интерпретации и обмена между людьми или в автоматическом режиме. База данных - совокупность взаимосвязанных данных (файлов), предназначенных для общего применения.

Термин база данных (БД) относится к набору данных, многомерному в том смысле, что между его элементами существуют внутренние связи, и поэтому доступ к информации можно осуществлять с различных точек зрения. В этом отличие базы данных от файлов традиционных систем, иногда называемых одноуровневыми файлами, которые являются одномерной системой хранения и представляют информацию только с одной точки зрения [4].

Базы данных представляют собой синтез структур данных и файловых структур. В современных базах данных методы из обеих областей применяются для создания такой системы хранения больших объемов данных, которая может выглядеть как система с множеством видов организаций данных и обслуживать приложения различных типов.

В те годы, когда формировалось понятие база данных, то в ней действительно хранились данные и только данные. Однако в современных системах управления базами данных имеется возможность не только хранить данные в своих структурах, но и хранить программный код, т.е. методы, с помощью которых происходит взаимодействие с потребителем или с другим программно - аппаратным комплексом.

Если провести обобщение выше сказанного то можно сказать, что это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области. Кроме того, это хранилище данных для совместного использования. При автоматизации деятельности человека происходит перенос реального мира в электронный формат. Для этого выделяется какая-то часть этого мира и анализируется на предмет возможности автоматизации. Она называется предметной областью и строго очерчивает круг объектов, которые изучаются, измеряются, оцениваются и т.д. В результате этого процесса выделяются объекты автоматизации и определяются реквизиты, по которым данные объекты оцениваются [1].

Базы данных выполняют две основные функции. Они группируют данные по информационным объектам и их связям и предоставляют эти данные пользователям. Информация может храниться в неструктурированном виде, например, в виде текстового документа, где данные об объектах предметной области записаны в произвольной форме.

Система управления базами данных (СУБД) - комплекс программ, которые обеспечивают взаимодействие пользователя с базой данных. Посредством СУБД обеспечивается решение таких основных заданий:

1. Создание базы данных;

2. Занесение, корректировка и изъятие данных;

3. Упорядочение данных;

4. Выбор совокупности данных, что отвечают заданным критериям;

5. Оформление выходных данных и т.д.

Совокупность СУБД и базы данных - это банк данных. К достоинствам подхода, который основывается на концепции банка данных, принадлежит:

1. Удовлетворение информационных потребностей разных типов пользователей;

2. Достоверность и непротиворечивость информации, что сохраняется;

3. Санкционированный доступ к данным;

4. Адаптационной модели к изменениям предметной области;

5. Выдача информации в форме установленной пользователем;

6. Одноразовое введение данных и многократное их использование;

7. Возможность исключения избыточности данных, что сохраняются, и т.д.

Базу данных можно считать корпоративной если она: включена в КИС, отвечает требованиям распределенной обработки данных, масштабируема. [3]

В последние годы в мире оформился ряд новых концепций хранения и

анализа корпоративных данных:

1. Информационные системы класса OLTP

2. Хранилища данных (Data Warehouse);

3. Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP);

4. Интеллектуальный анализ данных - ИАД (Data Mining).

Технологии OLAP тесно связаны с технологиями построения хранилища данных (Data Warehouse) и методами интеллектуальной обработки - Data Mining.

2. OLTP-системы (On-Line Transaction Processing)

Информационные системы класса OLTP (On-Line Transaction Processing) или OLTP-системы предназначены, прежде всего, для обслуживания повседневной деятельности предприятия.

Главная задача этих систем - выполнение большого количества коротких транзакций. Транзакцией называют неделимую с точки зрения воздействия на базу данных последовательность операций манипулирования данными.

Сами транзакции являются достаточно простыми, но проблемы состоят в том, что таких транзакций очень много, выполняются они одновременно и при возникновении ошибок транзакция должна откатиться и вернуть систему в состояние, в котором та была до начала транзакции. Практически все запросы к базе данных в OLTP-приложениях состоят из команд вставки, обновления и удаления. Типичными примерами OLTP - приложений являются системы складского учета, заказов билетов, операционные банковские системы и др. Запросы на выборку в OLTP - системах, в основном, предназначены для предоставления пользователям выборки данных из различного рода справочников. Поскольку большая часть запросов известна заранее ещё на этапе проектирования системы, то критическим для OLTP-приложений является скорость и надежность выполнения коротких операций обновления данных.

Таким образом, OLTP-системы имеют следующие особенности:

1. Рассчитаны на быстрое обслуживание относительно простых запросов большого числа пользователей;

2. Работают с данными, которые требуют защиты от несанкционированного доступа, нарушений целостности, аппаратных и программных сбоев.

Для обеспечения целостности данных и изолированности пользователей транзакции в OLTP-системах должны обладать четырьмя основными свойствами:

1. Атомарность. Транзакция должна выполняться как единая операция доступа к базе данных (БД) и может быть выполнена полностью либо не выполнена совсем.

2. Согласованность. Свойство согласованности гарантирует взаимную целостность данных, т.е. выполнение ограничений целостности БД после окончания обработки транзакции.

3. Изолированность. Это свойство означает, что транзакции должны выполняться независимо друг от друга, и доступ к данным, изменяемым с помощью одной транзакции, для других транзакций должен быть запрещен, пока изменения не будут завершены.

4. Долговечность. Свойство долговечности означает, что если транзакция выполнена успешно, то произведенные ею изменения в данных не должны быть потеряны ни при каких обстоятельствах. [5]

Длительное время в качестве стратегии разработки OLTP-систем использовались следующие принципы:

построение отдельных автоматизированных рабочих мест (АРМ), предназначенных для обработки групп функционально связанных документов, и тиражирование готовых АРМ на места;

построение полнофункциональных систем с тиражированием и настройкой по местам. Однако получаемые таким способом системы имели невысокие адаптационные возможности, предъявляли высокие требования к эксплуатационному персоналу и требовали больших накладных расходов на сопровождение.

Относительно недавно начала применяться новая, третья стратегия разработки информационных систем класса OLTP. Ее суть состоит в том, что тиражируются не готовые системы, а некоторые заготовки и технологический инструмент, позволяющие непосредственно на месте быстро построить или достроить систему с необходимой функциональностью и далее с помощью этого же инструмента ее модифицировать в соответствии с динамикой предметной области.

3. Хранилища данных (Data Warehouse)

Хранилище данных (ХД) - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.

По аналогии с реальными хранилищами, в хранилищах данных имеются большие области для сбора, хранения или перемещения существующих данных. Понятие "хранение данных" возникло, в середине 1980-х гг., и предназначалось для описания архитектурной модели потока данных от операционной системы к средствам поддержки принятия решений. Без такой архитектурной модели передаваемая управляющая информация обычно содержит большое количество избыточных данных.

В больших корпорациях множественные проекты принятия решений обычно осуществляются независимо, и при этом используется один и тот же набор данных. Таким образом, происходит накопление дублированных данных, что в конечном итоге приводит к снижению эффективности поддержки принятия решений.

Для повышения эффективности поддержки принятия решений и уменьшения дублированности данных применяют очистку данных (data cleaning или scrubbing). В ХД очистку данных также применяют для выявления и удаления ошибок, несоответствий в данных с целью улучшения их качества.

Хранилища данных требуют и одновременно обеспечивают всестороннюю поддержку очистки данных. Они загружают и постоянно обновляют огромные объемы данных из различных источников, поэтому вероятность попадания в них "грязных данных" весьма высока. Более того, хранилища данных используются в процессе принятия решений, следовательно, чтобы некорректные данные не привели к некорректным выводам, необходимо проводить корректировки таких данных. Например, дублирующаяся или утраченная информация может стать причиной некорректной или неадекватной статистики ("мусор на входе - мусор на выходе"). Ввиду большого спектра возможных несоответствий в данных и большого объема данных их очистка считается одной из самых крупных проблем в технологии хранилищ данных.

В состав хранилища данных, как правило, входит:

виртуальное хранилище данных;

витрины данных;

глобальное хранилище данных;

многоуровневая архитектура хранилища данных.

В основе виртуального хранилища данных лежит репозиторий метаданных, который описывается источниками информации (БД транзакционных систем, внешние файлы и др.), SQL-запросами для их считывания и процедурами обработки и предоставления информации. Непосредственный доступ к последним обеспечивает программное обеспечение промежуточного слоя. В этом случае избыточность данных нулевая. Конечные пользователи фактически работают с транзакционными системами напрямую со всеми вытекающими отсюда плюсами (доступ к не агрегированным данным в реальном времени) и минусами (интенсивный сетевой трафик, снижение производительности OLTP-систем и реальная угроза их работоспособности вследствие неудачных действий пользователей-аналитиков).

Витрина данных (Data Mart) - это облегченный вариант хранилища данных, содержащий только тематически объединенные данные. Целевая база данных максимально приближена к конечному пользователю и может содержать тематически ориентированные агрегатные данные. Витрина данных существенно меньше по объему, чем хранилище данных, поэтому его реализации не требуется мощная вычислительная техника.

Глобальное хранилище данных. В последнее время все более популярной становится идея совместить концепции хранилища и витрины данных в одной реализации и использовать хранилище данных в качестве единственного источника интегрированных данных для всех витрин данных. Тогда естественной становится следующая трехуровневая архитектура системы.

На первом уровне реализуется корпоративное хранилище данных на основе одной из развитых современных реляционных СУБД. Это хранилище состоит, в основном, из детализированных данных. Реляционные СУБД обеспечивают эффективное хранение и управление данными очень большого объема, но не слишком хорошо соответствуют потребностям OLAP-систем, в частности, в связи с требованием многомерного представления данных.

На втором уровне поддерживаются витрины данных на основе многомерной системы управления базами данных (примером такой системы является Oracle Express Server). Такие СУБД почти идеально подходят для целей разработки OLAP-систем, но пока не позволяют хранить сверхбольшие объемы данных (предельный размер многомерной базы данных составляет 10-40 Гбайт). В данном случае это и не требуется, поскольку речь идет о витринах данных. Необходимо заметить, что витрина данных не обязательно должна быть полностью сформирована. Она может содержать ссылки на хранилище данных и добирать оттуда информацию по мере поступления запросов. Конечно, это несколько увеличивает время отклика, но зато снимает проблему ограниченного объема многомерной базы данных.

На третьем уровне находятся клиентские рабочие места конечных пользователей, на которых устанавливаются средства оперативного анализа данных.

Хранилища данных обладают рядом свойств:

1. Предметная ориентация. В отличие от традиционной схемы реализации информационной системы, где источником данных для средств анализа являются ОБД, в которых данные ориентированы на обработку и функциональность систем сбора информации, данные в ХД ориентированы на решение задач анализа и представления данных.

2. Интегрированность данных. Данные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в ХД данные очищаются от индивидуальных признаков. С этого момента они представляются пользователю в виде единого информационного пространства.

3. Инвариантность во времени. В OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием ХД от OLTP-систем является сохранение истинности данных в любой момент процесса чтения. В OLTP-системах информация часто модифицируется как результат выполнения каких-либо транзакций.

4. Неразрушаемость - стабильность информации. В OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В системах ХД, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ).

5. Интеграция. Различные ОБД разрабатываются различными коллективами разработчиков, зачастую в разное время и различными средствами разработки. Это приводит к тому, что объекты, отражающие одну сущность, имеют различные наименования и единицы измерения. Обязательная интеграция данных в ХД позволяет решить эту проблему.

6. Минимизация избыточности информации. В ХД информация загружается из ОБД или OLTP-систем, при этом избыточность оказывается минимальной (около

Все данные в хранилище данных делятся на три основных категории:

метаданные;

детальные (текущие) данные;

агрегированные данные.

Традиционные подходы моделирования хранилищ данных основываются, как правило, на использовании временных отметок создания записей и их модификации. На данный момент известны три основных способа моделирования времени в хранилищах данных:

1. Модель снимков данных. Снимок данных - это представление данных в определенный момент времени. Данная модель характерна для оперативных систем (OLTP). Обновления данных носят деструктивный характер, т.е. предыдущие значения атрибутов замещаются новыми значениями. Модель имеет достаточно ограниченный круг применения в хранилищах данных, поскольку не обеспечивает хранения истории изменений.

2. Событийная модель используется для моделирования событий (данных), возникающих в определенные моменты времени. Данная модель подходит для моделирования транзакций, таких как: продажи, финансовые транзакции, складские операции и т.д.

3. Статусная модель используется для моделирования состояния объектов во времени. Она подходит для представления данных, имеющий нетранзакционный характер [5].

Статусная и событийная модели являются взаимно дополняющими. Путем преобразований из одной можно получить другую.

Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, т.е. он должен иметь развитые инструменты доступа к данным хранилища и их обработки.

Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются Информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы которые могут возникнуть при принятии решений.

Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения, которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо.

3. Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP)

Технология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). OLAP - это ключевой компонент организации хранилищ данных. Концепция OLAP была описана в 1993 г. Эдгаром Коддом и имеет следующие требования к приложениям для многомерного анализа [7]:

многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (ключевое требование OLAP);

предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), ценой менее детального анализа;

возможность осуществления любого логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для конечного пользователя виде;

многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировок и средств авторизованного доступа;

возможность обращаться к любой нужной информации независимо от ее объема.

OLAP-система состоит из множества компонентов. На самом высоком уровне представления система включает в себя источник данных, многомерную базу данных (МБД), предоставляющая возможность реализации механизма составления отчетов на основе технологии OLAP, OLAP-сервер и клиента. Система построена по принципу клиент-сервер и обеспечивает удаленный и многопользовательский доступ к серверу МБД.

Рассмотрим составные части OLAP-системы.

Источники. Источником в OLAP-системах является сервер, поставляющий данные для анализа. В зависимости от области использования OLAP-продукта источником может служить хранилище данных, наследуемая база данных, содержащая общие данные, набор таблиц, объединяющих финансовые данные или любая комбинация перечисленного.

Хранилище данных. Исходные данные собираются и помещаются в хранилище, спроектированное в соответствии с принципами построения хранилищ данных. ХД представляет из себя реляционную базу данных (РБД). Основная таблица ХД (таблица фактов) содержит числовые значения показателей, по которым собирается статистическая информация.

Многомерная база данных. Хранилище данных служит поставщиком информации для многомерной базы данных, которая является набором объектов. Основными классами этих объектов являются измерения и показатели. К измерениям относятся множества значений (параметров), по которым происходит индексация данных, например, время, регионы, тип учреждения и пр. Каждое измерение заполняется значениями из соответствующих таблиц измерений хранилища данных. Совокупность измерений определяет пространство исследуемого процесса. Под показателями понимаются многомерные кубы данных (гиперкубы). В гиперкубе содержатся сами данные, а также агрегатные суммы по измерениям, входящим в состав показателя. Показатели составляют основное содержание МБД и заполняются в соответствии с таблицей фактов. Вдоль каждой оси гиперкуба данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. Это позволяет создавать иерархические измерения, по которым при последующем анализе данных будут осуществляться агрегирование или детализация представления данных. Типичным примером иерархического измерения служит список территориальных объектов сгруппированных по районам, областям, округам.

Сервер. Прикладной частью OLAP-системы является OLAP-сервер. Эта составляющая выполняет всю работу (в зависимости от модели системы), и хранит в себе всю информацию, к которой обеспечивается активный доступ. Архитектурой сервера управляют различные концепции. В частности, основной функциональной характеристикой OLAP-продуктов является использование МБД либо РБД для хранения данных.

Клиентское приложение. Данные, структурированные соответствующим образом и хранимые в МБД доступны для анализа с помощью клиентского приложения. Пользователь получает возможность удаленного доступа к данным, формулирования сложных запросов, генерации отчетов, получения произвольных подмножеств данных. Получение отчета сводится к выбору конкретных значений измерений и построению сечения гиперкуба. Сечение определяется выбранными значениями измерений. Данные по остальным измерениям суммируются.

Основными понятиями многомерной модели данных являются: гиперкуб данных (Data Hypercube), измерение (Dimension), метки (Memders), ячейка (Cell) и мера (Measure).

Гиперкуб данных содержит одно или более измерений и представляет собой упорядоченный набор ячеек. Каждая ячейка определяется одним и только одним набором значений измерений - меток. Ячейка может содержать данные - меру или быть пустой.

Измерением называется множество меток, образующих одну из граней гиперкуба. Примером временного измерения является список дней, месяцев, кварталов. Примером географического измерения может быть перечень территориальных объектов: населенных пунктов, районов, регионов, стран и т.д.

Для получения доступа к данным пользователю необходимо указать одну или несколько ячеек путем выбора значений измерений, которым соответствуют необходимые ячейки. Процесс выбора значений измерений называется фиксацией меток, а множества выбранных значений измерений - множеством фиксированных меток.

Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением.

1. Многомерное представление данных - средства конечного пользователя, обеспечивающие многомерную визуализацию и манипулирование данными; слой многомерного представления абстрагирован от физической структуры данных и воспринимает данные как многомерные.

2. Многомерная обработка - средство (язык) формулирования многомерных запросов (традиционный реляционный язык SQL здесь оказывается непригодным) и процессор, умеющий обработать и выполнить такой запрос.

3. Многомерное хранение - средства физической организации данных, обеспечивающие эффективное выполнение многомерных запросов [2].

Первые два уровня в обязательном порядке присутствуют во всех OLAP-средствах. Третий уровень, хотя и является широко распространенным, не обязателен, так как данные для многомерного представления могут извлекаться и из обычных реляционных структур.

В любом хранилище данных - и в обычном, и в многомерном - наряду с детальными данными, извлекаемыми из оперативных систем, хранятся и агрегированные показатели (суммарные показатели), такие, как суммы объемов продаж по месяцам, по категориям товаров и т.д.

Основными недостатками являются увеличение объема хранимой информации (при добавлении новых измерений объем данных, составляющих куб, растет экспоненциально) и времени на их загрузку.

Степень увеличения объема данных при вычислении агрегатов зависит от количества измерений куба и структуры этих измерений, т.е. соотношения количества "родителей" и "потомков" на разных уровнях измерения. Для решения проблемы хранения агрегатов применяются сложные схемы, позволяющие при вычислении далеко не всех возможных агрегатов достигать значительного повышения производительности выполнения запросов.

Как исходные, так и агрегатные данные могут храниться либо в реляционных, либо в многомерных структурах. В связи с этим в настоящее время применяются три способа хранения многомерных данных:

MOLAP (Multidimensional OLAP) - исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные.

Эти системы обеспечивают полный цикл OLAP-обработки. Они либо включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс, либо используют для связи с пользователем внешние программы работы с электронными таблицами.

ROLAP (Relational OLAP) - исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.

HOLAP (Hybrid OLAP) - исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.

Некоторые OLAP-средства поддерживают хранение данных только в реляционных структурах, некоторые - только в многомерных. Однако большинство современных серверных OLAP-средств поддерживают все три способа хранения данных. Выбор способа хранения зависит от объема и структуры исходных данных, требований к скорости выполнения запросов и частоты обновления OLAP-кубов.

4. Интеллектуальный анализ данных (Data Mining)

Термин Data Mining обозначает процесс поиска корреляций, тенденций и взаимосвязей посредством различных математических и статистических алгоритмов: кластеризации, регрессионного и корреляционного анализа и т.д. для систем поддержки принятия решений.

При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных и

Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих подвыборках. Важной особенностью Data Mining является нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимосвязей между данными, они на основании имеющихся данных способны самостоятельно находить такие взаимосвязи, а также строить гипотезы об их характере [6].

В общем случае процесс интеллектуального анализа данных (Data Mining) состоит из трёх стадий:

1. Выявление закономерностей (свободный поиск);

2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

3. Анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).

Выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

1. Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота появления отдельного предмета или группы предметов, выраженная в процентах, называется распространенностью. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.

2. Последовательность - это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирования типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.

3. Классификация - инструмент обобщения. Она позволяет перейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют некоторые совокупности объектов и являются достаточными для распознавания объектов, принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключается в нахождении закономерностей, свойственных классам. Для описания объектов используются множества различных признаков (атрибутов). Проблема формирования понятий по признаковым описаниям была сформулирована М.М. Бонгартом. Ее решение базируется на применении двух основных процедур: обучения и проверки. В процедурах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура проверки (экзамена) состоит в использовании полученного классифицирующего правила для распознавания объектов из новой (экзаменационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в процессе повторного обучения.

4. Кластеризация - это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.

5. Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных рядов позволяет прогнозировать значения исследуемых характеристик.

Для решения таких задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

Из многообразия существующих методов исследования данных можно выделить следующие:

1 Регрессионный, дисперсионный и корреляционный анализ (реализован в большинстве современных статистических пакетов, в частности, в продуктах компаний SAS Institute, StatSoft и др.);

2. Методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях (часто применяются, например, в недорогих средствах финансового анализа);

3. Нейросетевые алгоритмы - метод имитации процессов и явлений, позволяющий воспроизводить сложные зависимости. Метод основан на использовании упрощенной модели биологического мозга и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между "нейронами", а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Связи в этом случае создаются с помощью так называемого обучения сети посредством выборки большого объема, содержащей как исходные данные, так и правильные ответы. Нейронные сети широко применяются для решения задач классификации;

4. Нечеткая логика применяется для обработки данных с размытыми значениями истинности, которые могут быть представлены разнообразными лингвистическими переменными. Нечеткое представление знаний широко применяется для решения задач классификации и прогнозирования, например, в системе XpertRule Miner (Attar Software Ltd., Великобритания), а также в AIS, NeuFuz и др;

5. Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматической генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез используются статистические методы. Примером системы с применением индуктивных выводов является XpertRule Miner, разработанная фирмой Attar Software Ltd. (Великобритания);

6. Рассуждения на основе аналогичных случаев (метод "ближайшего соседа") (Case-based reasoning - CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией.

7. Принцип аналогии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода заключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода. Примерами систем, использующих CBR, являются: KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США);

8. Деревья решений - метод структурирования задачи в виде древовидного графа, вершины которого соответствуют продукционным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает наглядное представление о системе классифицирующих правил, если их не очень много. Простые задачи решаются с помощью этого метода гораздо быстрее, чем с использованием нейронных сетей. Для сложных проблем и для некоторых типов данных деревья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из последствий иерархической кластеризации данных является отсутствие большого числа обучающих примеров для многих частных случаев, в связи с чем классификацию нельзя считать надежной. Методы деревьев решений реализованы во многих программных средствах, а именно: С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США);

9. Эволюционное программирование - поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, полиномов);

10. Алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных.

5. Интеграция OLAP и Data Mining

Оперативная аналитическая обработка (OLAP) и интеллектуальный анализ данных (Data Mining) - две составные части процесса поддержки принятия решений. Однако сегодня большинство систем OLAP заостряет внимание только на обеспечении доступа к многомерным данным, а большинство средств Data Mining, работающих в сфере закономерностей, имеют дело с одномерными перспективами данных. Для увеличения эффективности обработки данных для систем поддержки принятия решений эти два вида анализа должны быть объединены [2].

В настоящее время появляется составной термин "OLAP Data Mining" (многомерный интеллектуальный анализ) для обозначения такого объединения. Существует три основных способа формирования "OLAP Data Mining":

1. "Cubing then mining". Возможность выполнения интеллектуального анализа должна обеспечиваться над любым результатом запроса к многомерному концептуальному представлению, то есть над любым фрагментом любой проекции гиперкуба показателей.

2. "Mining then cubing". Подобно данным, извлечённым из хранилища, результаты интеллектуального анализа должны представляться в гиперкубической форме для последующего многомерного анализа.

3. "Cubing while mining". Этот гибкий способ интеграции позволяет автоматически активизировать однотипные механизмы интеллектуальной обработки над результатом каждого шага многомерного анализа (перехода между уровнями обобщения, извлечения нового фрагмента гиперкуба и т.д.).

Заключение

В данной курсовой работе была предоставлена заявленная во введении ознакомительная информация о корпоративных базах данных. Для раскрытия темы были введены понятия данных, базы данных, системы управления базами данных, корпоративные информационные системы. Кратко о выше перечисленном:

Базы данных представляют собой синтез структур данных и файловых структур.

Система управления базами данных (СУБД) - комплекс программ, которые обеспечивают взаимодействие пользователя с базой данных.

Корпоративная информационная система (КИС) - это масштабируемая система, предназначенная для комплексной автоматизации всех видов хозяйственной деятельности больших и средних предприятий, в том числе корпораций, состоящих из группы компаний, требующих единого управления.

Далее были рассмотрены корпоративные базы данных: OLTP-системы, главной задачей которых является выполнение большого количества коротких транзакций; хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления; витрина данных (Data Mart) - облегченный вариант хранилища данных, содержащий только тематически объединенные данные; OLAP - многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий; интеллектуальный анализ данных (Data Mining). Были рассмотрены их особенности, положительные и отрицательные черты, а так же возможности интегрирования данных систем.

Использование подобного рода вспомогательных средств века компьютерных технологий важно для получения максимальных результатов при минимальных затратах в анализе, сборе и хранении информации. Как было сказано "Кто владеет информацией, тот владеет миром", а кто умеет грамотно воспользоваться информацией - владеет Вселенной возможностей.

С точки зрения экономики использование корпоративных баз данных для ведения бизнеса - необходимость в наше время. Неоспорима ценность скорости и качества обработки данных при использовании этих систем.

Список использованных источников

1. Андрейчиков А.В. Интеллектуальные информационные системы /А.В. Андрейчиков, О.В. Андрейчикова. - М.: Финансы и статистика, 2004.

2. Борисов Д.Н. Корпоративные информационные системы. - Воронеж: Издательско-полиграфический центр Воронежского государственного университета, 2007.

3. Запечников С.В. Основы построения частных сетей / С.В. Запечников, Н.Г. Милославская, А.И. Толстой. - М.: Горячая линия - Телеком, 2003.

4. Лукьянов Д.Б. Информатика и математика. Курс лекций. /Д.Б. Лукьянов.А.Н. Прокопенко. - Белгород ООНИ и РИД БелЮИ МВД России, 2004.

5. Рындин А.А. и др.; под ред.А. А. Рындина. Проектирование корпоративных информационных систем - Воронеж: Кварта, 2003.

6. Столингс В. Современные компьютерные сети / В. Столингс. - 2-е изд. - СПб.: Питер, 2003.

7. Хансен Г. "Базы данных" - Москва: БИНОМ, 2009

Листать вверх Листать вниз

Получить код

Скачать материал (0.06 Мб)

Нравится материал? Поддержи автора!

Ещё документы из категории информатика:

Система Turbo-Basic

Информационное обеспечение сельского хозяйства

Универсальная система RTWin

Шифрование PGP

Рабочее место секретаря 2

Основы информатики

Исследование коммуникации в сетевых сообществах