Введение
Назначением информационных систем (ИС), независимо от области их применения (в производстве, бизнесе, медицине, образовании, страховании, других областях народного хозяйства) является обеспечение должностных лиц (или лиц принимающих решение - ЛПР)1 информацией, необходимой для принятия решений в области его деятельности. Стратегическим направлением развития ИС является их интеллектуализация, заключающаяся в построении формализованных процедур обработки, интерпретации и представления информации в виде некоторых показателей (знания), позволяющих их использование непосредственно для принятия управленческого решения в целевой области, т.е. выбора одного из альтернативных вариантов действий ЛПР. В этом случае о подобных ИС говорят как об интеллектуальных информационных системах [2].
Независимо областей применения ИС они выполняют следующие типовые функции: сбора данных; их обработки, в том числе, направленной на получение сводных показателей; представления данных, результатов обработки и их интерпретации для непосредственного использования ЛПР при принятии решения.
Среди перечисленных функций наиболее сложной для автоматизации с точки зрения построения формальных процедур преобразования данных в информацию, позволяющую ее использование для принятия решения, является построение сводных показателей, характеризующих состояние, эффективность или качество функционирования объекта управления, и их интерпретация.
В общем случае информация, необходимая для поддержки принятия решения может иметь следующий вид:
а) первичных данных, количественно характеризующих состояние объекта (процесса) управления;
1 Лицом, принимающим решение, будем называть субъекта, который должен на основании полученной информации осуществить выбор одного из альтернативных вариантов действий (собственных или находящегося под его началом коллектива).
4
б) результатов обработки первичных данных, выполняемой по алгоритмам, принятым в конкретной системе исходя из ее функционального назначения,
в) обобщенных показателей функционирования объекта за определенный период времени (прогнозов развития отраслей, демографической ситуации, прогнозов объемов финансирования различных отраслей народного хозяйства, образования, таможенных ставках и т.п.), т.е. данных о факторах долгосрочного действия в области существования объекта управления.
Если объект управления представляет собой сложную систему, описываемую большим числом характеристик, имеющих различную природу и широкий диапазон значений, когда не очевиден характер связей характеристик объекта между собой и внешними факторами, преобразование данных в сводные показатели качества его функционирования и их интерпретация усложняется и приобретает характер проблемной задачи. Т.е., она не может быть выражена в терминах конкретного класса прикладных задач, для которого имеется соответствующий математический аппарат. В этом случае возникает необходимость выявить и описать факторы, влияющие на состояние объекта, выбрать или разработать методы обработки информации, ориентированные на учет неопределенности, методы представления и интерпретации информации в таком виде, чтобы решение было принято.
В общем виде информационную задачу, которую необходимо выполнять при поддержке принятия решений в указанных условиях, можно сформулировать, как преобразование данных типа а), б) и в) в некоторые сводные показатели свойств объекта управления, которые не поддаются непосредственному измерению. Эти показатели могут интерпретироваться как некоторое качество объекта управления в целом или определенных его свойств (сторон): его эффективность, потенциал (потенциалы) достижения целей, вклад в эффективность или выигрыш от определенной деятельности, в которой участвует система и т.п. и характеризуют качественные и прагматические аспекты ее функционирования.
5
Условия, в которых приходится решать указанную информационную задачу, характеризуются неопределенностью, которая обусловлена одновременным действием целого ряда факторов:
- неполнотой описания объекта или процесса;
- существенной многомерностью;
- недостаточностью информации или ее отсутствием о характере связей между характеристиками объекта (процесса), а также между его характеристиками и внешними факторами;
- использованием моделей и методов обработки данных, применимость которых для решения конкретных целевых задач управления не обоснованы;
- задержками в получении необходимых данных, связанными с нерациональной организацией их управления (процессами сбора, подготовки и обработки), приводящими в конечном итоге к несвоевременным управленческим решениям.
Для решения задач поддержки принятия решений в этих условиях чрезвычайно актуальными являются выработка подходов, которые принципиально ориентированы на работу в так называемой неопределенной или «нечеткой» среде, а также разработка методов и средств их реализации в информационных системах.
На основании вышеизложенного можно заключить, что разработка (выбор) методов обработки информации и архитектуры информационных систем, предназначенных для поддержки принятия решений в условиях неопределенности, является актуальной и практически значимой задачей.
Степень разработанности задач.
Исследования по разработке методов и средств информационного обеспечения в интересах поддержки принятия решений в условиях неопределенности требуют системного подхода, использования последних достижений в области математических методов обработки и анализа многомерных данных, теории систем и системного анализа, новых информационных технологий.
6
Вопросам разработки методов классификации и анализа многомерных данных, алгоритмов обработки информации в информационных системах, архитектуры информационных систем и систем управления базами данных посвящено большое количество работ.
Методы анализа многомерных данных, применяемые для исследования структуры и характера взаимосвязей между анализируемыми количественными данными о характеристиках и параметрах функционирования объектов и систем, их классификации, снижения размерности исходного описания с целью лаконичного объяснения природы анализируемых многомерных данных и наглядного представления, в задачах анализа сложных систем (технических, социально-экономических, общественных и др.) и управления ими рассматриваются в трудах Миркина Б. Г., Айвазяна С. А., Малиновского Л. Г., Ивченко Б.П., Мартыщенко Л.А., Монастырского М.Л., Саати Т. Системный аспект при обработке информации, циркулирующей в сложных системах, рассматривается в трудах Денисова A.A., Волковой В.Н., Прангишвили И.В., Пащенко Ф.Ф., Бусыгина Б.П..
В работах Вильсона А.Дж., Трухаева Р. И., Куренкова Н.И., Лебедева Б.Д. рассматриваются методы учета неопределенности при решении информационных задач: построении обобщенных характеристик систем, обработки массивов с пропущенными данными, прогнозировании их развития и т.д.
Вопросам построения автоматизированных информационных систем в производстве, маркетинге, финансах посвящены работы Абдикеева Н.М., Салимова В.Г., Яковенко И.И., Денисова A.A., Одинцова Б.Е., Романова А.Н., Попова И.И., Кульбы В.В.
Проблемам создания информационных систем, ориентированных на поддержку принятия решений в области стратегического управления, таких как интеллектуальные и экспертные системы, методологическим основам их построения посвящены работы Гаврилова A.B., Ларичева О.И., Фатхутдинова P.A., Трахтенгерца Э.А., Т.Саати, Буркова В.Н., Райфы Х.и др.
7
Несмотря на большое количество работ, посвященных как общим, так и частным проблемам информационного обеспечения систем поддержки принятия решений, практически нет работ, в которых освещаются вопросы и проблемы формализации задач преобразования данных, описывающих сложные системы или процессы их функционирования, в сводные показатели их целевого назначения. Важность решения этих задач заключается в том, что они и составляют существо большинства процедур интеллектуальной обработки.
Исходя из степени разработанности перечисленных задач для данного диссертационного исследования, выдвинуты следующие цель и задачи.
Целью исследования является разработка методов, обоснование состава средств обработки данных и архитектуры информационных систем, обеспечивающих поддержку принятия решений в условиях неопределенности в различных предметных областях. Задачи исследования
1. Анализ состояния в области архитектуры информационных систем поддержки принятия решений (СППР) и используемых в них методов обработки и анализа данных.
2. Обоснование основных требований к методам и способам учета неопределенности при решении задач обработки и анализа многомерных данных в интересах поддержки принятия решений.
3. Разработка модели типовой информационной системы для комплексной автоматизации административной, учебной и научно-методической деятельности учебного заведения.
4. Определение места и роли систем (приложений) автоматизации обучения и разработка модели подсистемы автоматизации обучения языкам программирования.
5. Разработка метода, алгоритма и программного обеспечения приложения интеллектуального анализа данных для информационной системы страховой компании, предназначенного для прогнозирования страховых рисков.
8
6. Оценка эффективности разработанного метода прогнозирования страховых рисков.
Объектом исследования являются информационные системы поддержки принятия решений в области информационного обеспечения основных видов деятельности учебного заведения, а также страхования имущества граждан (автотранспорта).
Предметом исследования являются методы, алгоритмическое обеспечение приложений обработки и анализа многомерных данных и архитектура распределенных баз данных, обеспечивающие сбор, обработку и преобразование информации в вид, необходимый для принятия решений.
Теоретические основания исследования
Для построения сводных показателей качества объектов управления в информационных системах поддержки принятия решений использовались энтропийные методы анализа многомерных разнородных данных.
При обосновании построения информационных систем использовались разделы теории систем и системного анализа, при выборе вариантов и разработке структуры базы данных системы использовались разделы теории реляционных баз данных.
Эмпирическую базу диссертации составили результаты исследований по разработке модели процесса обучения языкам программирования, выполненных автором в 2000-2003 гг. на кафедре информационных технологий в сфере сервиса Московского государственного университета сервиса, и фактические данные о страхователях и их имуществе, представляющие собой содержание базы данных, а также ее приложение интеллектуального анализа данных, которые разрабатывались с участием автора для страховой компании.
Результаты диссертации внедрены в деятельность Института информационных технологий Московского государственного университета сервиса, а также в деятельность ООО «Страховая компания «Оранта», что подтверждается актами о внедрении и реализации (приложение 4).
Научная новизна исследования.
1. Впервые предложено и обосновано использование нового энтропийного метода обработки многомерной информации для создания приложений интеллектуального анализа данных в условиях неопределенности для информационных систем поддержки принятия решений.
2. Впервые разработана модель типовой информационной системы учебного заведения на основе концепции распределенных баз данных и приложений информационного обеспечения административной, учебной и научно-методической деятельности.
3. Разработан новый метод оценивания и прогнозирования рисков перехода объектов в возможные состояния для приложений интеллектуального анализа данных, заключающийся в преобразовании характеристик объекта в факторы риска и построении на них обобщенных показателей риска с помощью энтропийного метода.
Практическая значимость исследования.
1. Разработана модель типовой информационной системы комплексной автоматизации административной, учебной и научно-методической деятельности в учебном заведении, схема хранилища данных для этой системы, разработана и программно реализована учетная система.
2. Разработан алгоритм генерации заданий подсистемы обучения языкам программирования, а также метод, алгоритм и программное обеспечение приложения оценивания уровня знаний и навыков по результатам обучения на основе энтропийного метода построения обобщенных характеристик.
3. Разработаны алгоритмы и программное обеспечение приложения оценивания и прогнозирования рисков для информационной системы поддержки принятия решений в области страхования.
На защиту выносятся следующие положения:
1. Принцип построения приложений интеллектуального анализа данных для систем поддержки принятия решений.
10
2. Метод построения гарантированных оценок риска в информационных системах на основе преобразования характеристик объекта управления в факторы риска и использования энтропийного метода построения обобщенных характеристик систем.
3. Модель типовой информационной системы динамического сопровождения процесса обучения.
11
Глава 1. Методы и средства обработки информации и данных, используемые для создания систем поддержки принятия решений
В настоящее время в области систем поддержки принятия решения (011 IF) приобрела отчетливые очертания тенденция, связанная с интеграцией СППР с системами автоматизированного управления [2]. Более того, СППР становятся основой информационно-технологической инфраструктуры промышленных предприятий, корпораций, ведомственных структур, органов государственной власти и управления, медицинских и учебных учреждений и т.д., поскольку они позволяют преобразовывать обширную информацию предметной области в ясные и полезные выводы.
Объясняется это достижениями в области математических и нейросетевых методов анализа многомерных данных, позволяющих строить эффективные алгоритмы обработки и анализа данных, а также в области систем управления базами данных (СУБД), обеспечивающих представление их содержимого в многомерном виде и их эффективную предварительную логическую обработку [72]. Реализация этих алгоритмов в виде встроенных приложений таких баз данных позволяет практически полностью автоматизировать сложные («интеллектуальные») процедуры поиска и обнаружения заданных совокупностей данных, их преобразование в выводы, непосредственно используемые для принятия решения.
Однако сбор, обслуживание и анализ больших объемов данных, — это гигантские задачи, которые требуют преодоления серьезных трудностей научного, методического и технического характера, огромных затрат и адекватных организационных решений.
12
1.1. Классификация информационных систем, СППР, их состав и решаемые задачи
Информационные системы относятся к классу сложных систем, и в настоящее время область их применения покрывает практически все отрасли человеческой деятельности.
Существует много определений информационной системы или автоматизированной информационной системы. В [63] приводится следующее ее определение:
Автоматизированная информационная система (ЛИС) определяется как комплекс автоматизированных информационных технологий, входящих в состав информационной системы, предназначенных для информационного обслуживания - организованного непрерывного технологического процесса подготовки и выдачи научной, управленческой и другой информации потребителям, используемой для принятия решений, в соответствии с их нуждами для поддержания эффективной деятельности.
Технологический процесс автоматизированной информационной системы, как совокупности функциональных подсистем, включает в себя сбор, ввод, обработку, хранение, поиск, распространение информации и может быть представлен в виде схемы, изображенной на рисунке 1.1.
Стоит отметить, что применяемые в АИС модели не являются обязательными и могут использоваться для поддержки принятия решений. В связи с этим в [63] выделяются следующие виды АИС:
- системы поддержки принятия (или обеспечения) решений - системы, использующие модели объекта управления, опирающиеся на вычислительные или имитационные модели и расчетные методы;
- экспертные системы - системы, базирующиеся на логической модели предметной области, реализованной в форме базы знаний и механизма логического вывода.
13
База данных
Модель объекта
Источники данных, другие ИС, внешние базы данных
JL
Сбор данных
Обработка ручная
Ввод данных
Обработка машинная
Хранение — обновление, поддержка
Поиск информации
Формирование выходных документов
Анализ данных
Принятие решения
г
О
о,
е
S К
S
5
ш о
3
I
Рис. 1.1. Типовая схема основного технологического процесса в автоматизированных информационных системах
В процессе развития информационных систем анализ данных с целью выявления находящихся в них закономерностей и базирующиеся на результатах этого анализа управляющие решения становились все более формализованными. Собственно, системы поддержки принятия решений необходимы для автоматизации именно этой части технологического процесса, хотя, безусловно, СППР охватывают в той или иной степени все ступени процесса.
14
В области поддержки принятия решений можно выделить две группы систем, взаимодополняющих друг друга:
- системы, ориентированные на операционную обработку данных -системы обработки данных (СОД).
- системы, ориентированные на анализ данных — собственно СППР. Исторически традиционные СОД были первыми средствами
автоматизации обработки информации, которая требует четкой регламентации процессов повседневной рутинной обработки данных и соответственно реализует жесткую детерминированную схему представления данных и их обработки.
Типовая информационная задача ЛПР, для решения которой используются СОД, сводится к сравнению с заданными порогами текущего уровня некоторых показателей, характеризующих состояние, свойства или качество объекта (процесса) управления и определяемых при измерении отдельного или целой совокупности параметров функционирования объекта (что зависит от сложности объекта). В последнем случае информационная задача ЛПР включает также преобразование совокупности параметров состояния объекта (процесса) в некоторые интегральные (обобщенные) характеристики объекта (процесса), например, статистические моменты, отражающие его существенные качественные стороны, соответствующие целевой задаче управления.
Выдаваемые ими данные - графики таблицы, сводки в основном используются как справочная и оперативная информация, используемая для тактического и оперативного (текущего) управления [2] — слежения за состоянием объекта управления с целью недопущения его выхода в критическое состояние.
СППР по отношению к СОД являются в своего рода надстройкой. СППР использует предоставляемые СОД данные, а также дополнительную информацию и данные для анализа, проводимого с использованием собственных инструментальных приложений, результаты которого фактически
15
уже могут являться знанием, т.е. структурированной информацией, содержащей оценки взаимосвязи между параметрами описания объекта управления (между совокупностью объектов) и подразумевающей, как ее использовать. Такая информация необходима на более высоких этажах иерархии управления, в первую очередь — для решения задач стратегического управления. Однако в зависимости от области применения такие информационной системы могут быть реализованы даже в виде офисной (настольной) СППР.
В [57] приводится несколько определений СППР, которые указывают на область их применения - решение неструктурированных и слабоструктурированных информационных задач, "сочетающих количественные и качественные зависимости, причём малоизвестные и неопределённые стороны задачи имеют тенденцию доминировать".
Сложность решения информационных задач в условиях роста объема исходных данных, необходимость высокого качества информационного обеспечения принятия решений на уровне тактического управления, высокая степень неопределенности в информации, используемой на уровне стратегического управления, определили необходимость разработки качественно новых аппаратно-программных средств обработки многомерных данных для поддержки принятия решения. Комплекс этих средств и методическое обеспечение их применения фактически представляют собой новую технологию комплексного многомерного анализа данных, позволяющего оперативно решать задачи ППР на различных уровнях управления практически в рамках единой информационной системы. Эта технология включает:
- новые СУБД, реализующие концепцию хранилищ данных;
- средства OLAP (On-Line Analytical Processing) [90];
- средства интеллектуального анализа данных (ИАД).
Несмотря на определенную функциональную независимость средств обработки данных - OLAP и ИАД, они являются обязательными составными частями корпоративных СППР.
16
Структура информационно-аналитической СГШР, построенной на основе хранилища данных, показана на рис. 1.2 (в конкретных реализациях отдельные компоненты этой схемы часто отсутствуют).
Данные (транзакционные системы, источники данных)
I
Автоматический контроль корректности входных данных (OLTP)
JL
Сбор, устранение логических и других ошибок, согласование данных из внешних источников
Хранилище данных
Локальные базы данных
Информационные
системы руководителя
Информационно-поисковые системы, генераторы запросов
Получение детализированных данных
Системы оперативной
аналитической обработки
данных
(OLAP)
Получение агрегированных (сводных) показателей
Системы интеллектуального анализа данных (ИАД)
Получение прогнозов, данных о закономерностях
Рис. 1.2. Полная структурная схема корпоративной автоматизированной информационно-аналитической системы
Хранилище данных определяется как предметно-ориентированный, интегрированный, зависимый от времени набор данных, предназначенный для поддержки принятия решений различными группами пользователей. Так как хранилище носит предметно-ориентированный характер, его организация
17 |