3 ВВЕДЕНИЕ
Актуальность темы диссертационного исследования определяется возрастающими требованиями к достоверности и информативности методов обработки и интерпретации технологических данных для управления производственными процессами и качеством (Statistical Quality Control).
Научные основы обработки производственной информации были заложены еще в середине XIX века, когда российские академики М. В. Остроградский и В. Я. Буняковский (главный эксперт правительства) разработали вероятностные методы контроля и управления технологией, обеспечившие качество поставок для армии. Развитие техники повысило роль приемочного контроля и регулирования качества, ставшими звеньями производства. В 20-х годах прошлого века компания «Белл телефон» создала первую лабораторию для обработки технологической информации и управления качеством, сократила затраты на устранение брака и повысила безотказность продукции. Расходы на контроль и предупредительные мероприятия составляли 10 % прибыли от улучшения технологии и повышения качества изделий. На сварочном производстве оперативное выявление и устранение причин дефектов дает чистую экономию 7 тыс. на 220 тыс. долларов продукции [95].
По результатам обработки технологической информации оценивается качество и сортность продукции. Неточность статистического анализа при классификации коксового угля, реализуемого по ценам от 1 до 3 тыс. руб. за тонну, для обычной партии 1000 т приводит к потерям до 200 тыс. руб.
Статистический анализ технологических данных и выработка управляющих воздействий в математическом отношении опираются на аппроксимацию эмпирических зависимостей и частот. Аналогия с обработкой сигналов в радиотехнике, интерпретацией информации в геологии и экологии позволяет использовать математический аппарат статистической теории связи, развитый в работах А. А. Харкевича [90], Б. Р. Левина [40], Д. Мидлтона Д. [43, 44], С. М. Рытова [70], Тихонова В. И. [82, 83], подходы к аппроксимации Р.И. Дубова [19] и И. Р. Дубова [18].
4 Но, несмотря на многолетний опыт анализа технологических данных и
заимствование результатов смежных областей, внедрение современных методов обработки информации сдерживается недостаточной разработкой общеметодологических подходов и их неприспособленностью к конкретному производству (и его логистической системе), в частности, необходимостью:
- уточнения постановки задач обработки и интерпретации технологической информации с учетом их неопределенности и неоднозначности, что предполагает использование оптимизационных подходов для решения;
- расширения класса подходящих математических моделей, систематизации принципов и алгоритмов оптимального решения указанных задач;
- разработки методики анализа и моделирования для конкретных логистических систем, в том числе по добыче и подготовке угля к коксованию;
- алгоритмов реализации информационно емких методов обработки данных, отвечающих возможностям современной вычислительной техники, позволяющих внедрить ее в управление качеством выпускаемой продукции.
Таким образом, разработка алгоритмов построения математических моделей для обработки технологической информации является актуальной научной проблемой, имеющей методологическое и прикладное значение.
Цель работы - повышение достоверности и эффективности методов обработки и интерпретации технологической информации; их апробация на предприятиях добычи и обогащения коксующихся углей.
Задачи исследования:
1. Разработка методов обработки и интерпретации технологической информации, основанных на принципах оптимальной аппроксимации эмпирических зависимостей и частот с уточнением и обоснованием:
- общей постановки задачи оптимальной аппроксимации эмпирических зависимостей и частот, как неопределенной и оптимизационной;
- условий, определяющих меру и метод приближения соответственно свойствам случайной составляющей исходных данных;
5
- подходов к формированию классов аппроксимирующих функций, адекватных сущности и математическим свойствам моделируемых явлений;
- критерия оценки порядка модели, обеспечивающего лучшее приближение к регулярной составляющей данных и регуляризацию.
2. Расширение класса аппроксимирующих статистических распределений случайных величин, имеющих ограниченную область рассеяния.
3. Разработка методики построения моделей смешанных эмпирических распределений относительных случайных величин, обеспечивающих их объективное расщепление на однородные составляющие.
4. Создание методики конструирования аппроксимирующих функций-претендентов эмпирических зависимостей, отвечающих сущности и математическим свойствам переменных и их производных.
5. Обоснование критериев согласия и устойчивости моделей на основе статистического анализа остатков и их вариаций.
6. Апробация алгоритмов оптимальной аппроксимации при решении практических задач на угольных предприятиях.
Научная новизна диссертации заключается в следующем:
1. Для эмпирических частот и зависимостей:
- уточнена постановка задачи аппроксимации, отличающаяся от классической явным требованием приближения не к эмпирическим данным, а к, вообще говоря, неизвестным значениям их регулярной составляющей;
- показана неоднозначность и неопределенность решения задачи аппроксимации (problems under uncertainty) и необходимость его оптимизации;
- обоснованы принципы оптимальной аппроксимации, которые включают выбор подходящих меры и метода приближения, класса аппроксимирующей функции и ее порядка, обеспечивающего регуляризацию.
2. Доказана возможность представления статистических распределений случайных величин, рассеянных в ограниченной области, конечными состояниями броуновского процесса - решениями частной формы второго дифференциального уравнения Колмогорова (уравнения диффузии), отвечающих:
6
- обобщениям нормального закона для однородных выборок с ограниченными областями рассеяния случайных величин;
- ряду Фурье, адаптированному к свойствам вероятностных функций однородных выборок и их смесей путем суммирования по Фейеру и гармонического анализа без сортировки и группировки вариант.
3. Разработана методика моделирования суммой бета-распределений смеси относительных случайных величин, их расщепления и интерпретации в соответствии с принципами оптимальной аппроксимации.
4. Аналитический подход А.Н. Колмогорова для распределений применен к построению подходящего класса эмпирических зависимостей с учетом их природы и математических свойств, что предполагает:
- конструктивное задание области определения переменных;
- подбор подходящих дифференциальных уравнений, отвечающих связям переменных и их приращений, экстремумам, корням и асимптотам;
- идентификацию наиболее подходящего дифференциального уравнения с учетом его решения, исходя из принципов оптимальной аппроксимации;
- регуляризацию решения (модели эмпирической зависимости) путем оптимального ограничения числа членов.
5. Обоснована устойчивая к типу распределения данных двухкритери-
альная оценка согласию модели с учетом ее степеней свободы:
- по непротиворечивости распределения остатков и случайной составляющей (для зависимости) или с нормальным законом (для частот);
- по отсутствию значимой корреляции остатков и аргумента.
6. Предложена оценка устойчивости модели путем рандомизации остатков (вариации их последовательности).
7. Установлена многомерная нелинейная связь состава угля с толщиной пластического слоя, объясняющая нарушение его аддитивности в шихте и позволяющая прогнозировать ее состав.
8. Выявлены тесные многомерные ложные корреляции содержаний компонентов угля, что позволяет оценивать и контролировать его состав.
7 Практическая значимость работы и внедрение ее результатов:
1. Общетеоретические результаты по уточнению задач и систематизации принципов оптимальной аппроксимации вошли в учебные программы Нижнетагильского технологического института [Приложение 2] и методические пособия [26, 27, 29].
2. Разработанные методика, математические модели и алгоритмы оптимального приближения эмпирических частот и зависимостей внедрены в лаборатории моделирования производственных систем Научно-исследовательского института открытых горных работ (г. Челябинск) для обработки и интерпретации производственных материалов, в частности статистического анализа выработки экскаваторов [Приложение 3].
3. Выполненные для углеобогатительной фабрики (г. Прокопьевск) решения задач оптимальной аппроксимации используются для торгово-промышленной маркировки угля и расчетах состава шихты [Приложение 4].
На защиту выносятся следующие разработки и вопросы:
1. Обосновываемая постановка задач и принципы оптимальной аппроксимации эмпирических частот и зависимостей.
2. Модели статистических распределений для ограниченной области рассеяния случайной величины в виде обобщений нормального закона и рядов Фурье, адаптированных к свойствам вероятностных функций.
3. Способы моделирования, расщепления и интерпретации смешанных эмпирических распределений случайных относительных величин.
4. Применение аналитического метода А.Н. Колмогорова для конструирования класса функций-претендентов эмпирических зависимостей.
5. Критерии оценки непротиворечивости и устойчивости модели.
6. Результаты обработки, моделирования и интерпретации:
- распределений параметров состава и физических свойств угля;
- смеси распределений случайных относительных величин и их расщепления для анализа выработки экскаваторов на горных работах;
- оптимальных парных и многомерных зависимостей между химическими и физическими параметрами угля в целях его экспресс-анализа и расчетов состава шихты.
8
Апробация результатов диссертации осуществлялась при их практическом использовании в лаборатории моделирования производственных систем Научно-исследовательского института открытых горных работ (г. Челябинск) и на углеобогатительной фабрике (г. Прокопьевск).
Основные результаты работы докладывались и обсуждались на Всероссийской научно-методической конференции «Информатизация образования» (Нижний Тагил, 2002); XII Международной конференции-выставке «Информационные технологии в образовании» (Москва, 2002); IV Международной научно-практической конференции «Методы и алгоритмы прикладной математики в технике, медицине и экономике» (г. Новочеркасск, 2004); Научно-технической конференции «Наука - Образование - Производство» (Н. Тагил, 2004); Межрегиональном форуме «Приборостроение 2004» (г. Екатеринбург, 2004); VII отчетной научной конференции молодых ученых ГОУ ВПО «УГ-ТУ-УПИ» (Екатеринбург, 2004); 9-ой Всероссийской интернет конференции «Информационные технологии и электроника»; Всероссийской научной конференции «50 лет радиотехнического образования на Урале» (Екатеринбург, 2004); VIII научной конференции молодых ученых ГОУ ВПО «УГТУ-УПИ» (Екатеринбург, 2005); Международной научно-практической конференции "СВЯЗЬ-ПРОМ 2005" в рамках 2-го Евро-Азиатского международного форума "СВЯЗЬ-ПРОМ ЭКСПО 2005" (Екатеринбург, 2005).
Публикации, отражающие содержание диссертации, сделаны в изданных трудах и материалах указанных конференциях, 8 статьях в научных журналах и сборниках и 3 учебных пособиях - всего опубликовано 20 работ.
Структура диссертации: введение, три главы, заключение и приложения (141 страница машинописного текста, 4 таблицы, 37 рисунков, список литературы из 103 наименований и 4 приложения).
Автор выражает глубокую благодарность за методическую помощь в работе над диссертацией научному руководителю д. т. н. проф. С. В. Порш-неву и взявшему на себя труд внимательно прочесть диссертацию и сделать ценные замечания к. т. н. доц. С. С. Соколову.
9 Глава 1
ЗАДАЧИ ОБРАБОТКИ ТЕХНОЛОГИЧЕСКОЙ ИНФОРМАЦИИ И АНАЛИЗ ПОДХОДОВ К ИХ РЕШЕНИЮ
Технологические данные, отражающие добычу, изменение состояния и свойств угля при обогащении, состав приготовляемой шихты - сырья для получения кокса, позволяют осуществлять мониторинг производства и управлять качеством, как проблемы Statistical Quality Control. Для этого осуществляется сбор и обработка необходимой технологической информации.
Технологическая информация количественного характера, то есть показатели природных, технических и экономических явлений в производственном процессе, включает регулярную (детерминированную) и случайную составляющие. Регулярная составляющая отражает сущность рассматриваемых явлений, а случайная - влияние множества неучитываемых воздействий. Конкретное содержание анализируемых явлений различно, но их количественные оценки подчиняются общим вероятностным закономерностям и предполагают решение двух задач обработки технологической информации:
- построение эмпирических распределений количественных показателей этих явлений и оценка отвечающих их сущности обобщающих статистик;
- выявление и математическое представление эмпирических зависимостей между регулярными составляющими изучаемых показателей.
Данные задачи решаются методами аппроксимации, рассматриваемыми с позиций развиваемых принципов оптимальной аппроксимации. При этом аппроксимация понимается как определение для эмпирических данных функции, в том или ином смысле близкой к регулярной составляющей данных и правильно отражающей свойства связанного с ней явления, то есть аппроксимирующая функция является его математической моделью.
1.1. Постановка задач оптимальной аппроксимации
Применительно к обработке информации, используемой в управлении промышленным предприятием, ставятся задачи аппроксимации:
10
- эмпирических статистических распределений одномерных случайных
величин с учетом условий рассеяния количественных показателей исследуемых природных, технологических и экономических явлений;
- смешанных распределений (смесей) случайных относительных величин, отражающих показатели производительности, которые отвечают проявлениям различных условий на производстве;
- статистически значимых эмпирических зависимостей между регулярными составляющими количественных показателей изучаемых явлений.
Уже при феноменологической постановке задач аппроксимации обнаруживается общая неопределенность и неоднозначность условий и желаемых состояний объекта, поскольку априорно в общем случае неизвестны:
- регулярная и случайная составляющие эмпирических данных;
- класс аппроксимирующих функций, то есть закон, моделирующий статистическое распределение, и аналитическая форма приближения эмпирической зависимости, то есть ее формула;
- порядок выбранной модели, то есть количество членов в аппроксимирующем ряду или составляющих в смешанном распределении;
- численные значения параметров модели подходящего порядка, то есть постоянные и коэффициенты аппроксимирующих ряда, формулы или закона;
- мера близости эмпирических значений к аппроксимирующей функции и метод приближения (определения параметров).
Выбор того или иного варианта ведет к разным результатам и поэтому, по мнению автора, задачи аппроксимации относится к типу неопределенных (problems under uncertainty). Более точно, - это задачи исследования операций в условиях неопределенности, в которой при принятии решения на том или ином этапе нельзя заранее предвидеть результат выбора стратегии (альтернативного алгоритма). Иными словами, априори нет оснований полагать, что какой-либо результат более вероятен, чем любой другой из их возможного набора. Очевидно, решения обсуждаемых задач неоднозначны.
и
Неопределенность постановки задач и их неоднозначность предполагают поиск предпочтительного варианта решения, отвечающего обосновываемым представлениям об оптимальности аппроксимации.
Допускается, что обсуждаемая неопределенность сводится к некоторому конечному множеству допустимых вариантов, выбор из которых возможен с помощью предлагаемых адаптивных алгоритмов, которые наилучшим образом обеспечивают приближение к цели. При этом значение критерия, характеризующего точность приближения, уточняется в процессе решения.
Следовательно, алгоритм решения является многоэтапным итерационным (циклическим), предполагающим коррекцию на каждом этапе.
Обосновываемый подход с изначальным и явным отнесением задач аппроксимации к типу неопределенных имеет общеметодическое значение. При этом вносятся принципиальные уточнения в классическую постановку задач аппроксимации и их изложение в учебных курсах по прикладным математическим методам [16].
Постановка каждой из обсуждаемых задач аппроксимации производится при указанной общей неопределенности и неоднозначности, но имеет свою специфику и предполагает формализацию, то есть переход от феноменологической к математической постановке конкретной задачи.
Задача аппроксимации статистических распределений количественных показателей исследуемых природных, технологических и экономических явлений ставится с учетом их сущностных и случайных свойств:
- определения, как правило, только на положительной полуоси действительных значений (проценты и используемые показатели не отрицательны);
- ограниченной области рассеяния (возможные значения варьируют не от -оо до оо, а между некоторыми конечными пределами);
- формирования случайных величин, как сумм слабо зависимых слагаемых (выработка за месяц складывается из сменных итогов, состав и свойства угля - из его макрокомпонентов и их особенностей и т.д.);
12
— возможной неоднородности аппроксимируемого эмпирического статистического распределения, отвечающего смеси однородных совокупностей.
В формализованной постановке задачи аппроксимации эмпирических статистических распределений рассматривается в общем случае неоднородная совокупность случайной величины X. Она предполагается заданной несколькими (для определенности двумя) множествами значений:
— пусть одной из них отвечает набор элементов
x'h х'2, ...,*'„', (1.1)-
которые являются результатами выполненных в неизменных условиях п' независимых измерений величины Х\
— другим, но также неизменным условиям проведения п" независимых экспериментов пусть отвечает однородная совокупность той же случайной величины ЛГ с набором значений
х \, х 2> —,х п», (I.Z)
закон распределения которых в общем случае отличается от закона распределения совокупности (1.1) значениями параметров и даже видом модели.
Иными словами, неоднородная совокупность случайной величины является множеством, состоящим из подмножеств, элементы каждого из которых отвечают однородной совокупности со своим законом распределения.
Соответственно, смешанное распределение образуется из элементов, каждый из которых подчиняется одному из нескольких однородных статистических законов, то есть смешанная совокупность состоит из смеси однородных (однородных составляющих). Объем смешанной совокупности п складывается из объемов однородных совокупностей п(.
т и=Х«Ь (1.3)
1=1
где т - число однородных составляющих в смешанной совокупности.
Вес (весовой коэффициент) v,- для /-й однородной составляющей в смешанной совокупности определяются как
13 v/^wy/и. (1.4)
При т = 2 в силу соотношения (1.3) V\ = n\l n, v2 = 1 - vj.
В общем случае при количестве составляющих w с учетом (1.3)
vm=1-vl~v2--- vm-h (L5)
то есть число весовых коэффициентов равно т - 1.
Для смешанного распределения функция плотности вероятностей^ и
интегральная функция распределения Fim являются, очевидно, линейными комбинациями соответствующих функций /ц и Гц однородных распределений, каждое из которых зависит от / параметров:
т т
flm-lLvifcFlm-lLviFtt (1-6)
Моменты смешанного распределения и его составляющих связаны:
- общее математическое ожидание является средневзвешенным с весами (1.4) и (1.5) математических ожиданий однородных составляющих;
- общая дисперсия складывается из суммируемых с весами (1.4) и (1.5) дисперсий однородных составляющих (их совокупности независимы).
Любая совокупность случайных величин, в том числе смешанная, обычно представляется выборкой из п численных значений (вариант) х^ которые располагаются по возрастанию в виде вариационного ряда
Xj S х2 — ••¦ — ^к "^к+1 ~ ¦•" п' (!•')
Эмпирическая накопительная (интегральная) функция распределения Fn(x^) для такой совокупности определяется уравнениями:
0 при х < х\
к
— при Xk п
1 при х > хп
Выборки ограничены по объему, и в силу закона больших чисел накопительные частоты распределены случайно с вероятностями, которые подчиняются, как известно [14], биноминальному закону
14 {n-yCkn{Fn(xk)f{\-Fn{Xk)f-k (1.9)
и сходятся к истинным вероятностям при п —> со.
В соответствии с теоремой Гливенко эмпирическая накопительная функция распределения Fn(x^) сходится к, вообще говоря, неизвестной истинной интегральной функции распределения Fmi{x?) при п —> со. Однако теорема не устанавливает меры расхождения вероятностей Fn(x0 и Fmi(x^).
Таким образом, задача аппроксимации неизвестной истинной интегральной функции распределения Fmi(x0 для заданных эмпирических частот
Fn(x?) ставится при условиях, уточняемыми по сравнению с классическими:
- искомое распределение Fmi(x^) в общем случае рассматривается как неоднородное, то есть как сумма из т составляющих — интегральных функций некоторых однородных распределений;
- однородные составляющие искомого распределения имеют произвольно ограниченные области рассеяния.
Известные и обычно используемые статистические модели однородных законов не позволяют сформировать достаточно полный класс функций-претендентов с обсуждаемыми свойствами. Следовательно, задача аппроксимации предполагает конструирование подходящих функций для моделирования как однородных, так и смешанных распределений.
При аппроксимации рассматриваемых распределений традиционные критерии согласия, как меры отличия эмпирических и подбираемых теоретических частот не корректны, поскольку, как известно [3], критерии:
- Пирсона, Уэгла, Мардиа справедливы для моделей нормального закона;
- Колмогорова и со2 устойчивы к моделям разных типов, но не учитывают уменьшения степеней свободы при оценке параметров из обрабатываемой выборки и завышают согласие.
Однако меры расхождений критериев согласия Колмогорова и со2 пригодны как целевые функций для оценки параметров моделей.
15
Задача аппроксимации смеси относительных величин является частной по отношению к обсуждавшейся выше. Рассматриваемое смешанное распределение состоит из нескольких однородных выборок случайных относительных величин с областью рассеяния, ограниченной толерантными пределами, например, от 0 до 1 или других.
При этом задача аппроксимации несколько упрощается, поскольку из работ Уилкса С. [86]; Wilks S. [103] и Хана Г., Шапиро С. В [90] следует адекватность однородных составляющих моделям бета-распределения. В этих работах показано, что при любом распределении случайной величины t
_____'mm
'max ~ 'min
(1.10)
где
t-t
min
"""'
[0,l], подчиняется бета-распределению:
min
А
t-t
min
I T(a
t-t
mm
'max 'min
• 1-
lmin
• (1Л1)
Y{a)-r(b) l,/max-/min Параметрами функция плотности вероятностей (1.11) являются; a, b - натуральные числа (большие 1); /m;n, /max - минимальное и максимальное значения переменной; Г() - гамма-функция.
Как показано Ханом Г., Шапиро С. В [90] и другими, математическое ожидание и дисперсия бета-распределения выражаются через его параметры:
т = а/(а + Ь), (1.12)
(1.13)
Функция плотности вероятностей смешанного распределения (1.6), состоящая из бета-распределений представляется суммой
Jm ~
т
lU+bi) { '"('mm);
4 f
foMfy) ^max),--(^min)J t ('max)/"('min)/
1—
•v/, (1.14)
Для аппроксимации смешанного эмпирического распределения моделью (1.14) оцениваются параметры бета-распределений и их число т.
16
Представление смешанного эмпирического распределения случайных относительных величин в виде суммы (1.14) одновременно решает задачу ее расщепления на однородные составляющие как выделения слагаемых.
Задачи аппроксимации эмпирических зависимостей (парных и многомерных) рассматриваются для таблично заданных численных значений величин, которые наблюдаются в эксперименте.
В некоторых работах ([16], [21] и других) такие задачи называются подбором эмпирических формул.
Парная зависимость для двух переменных, обозначаемых обычно, как х и у, ищется для их ряда, задаваемого в виде таблицы
X Xj Х2 ... хп
У У1 У2 ... Уп
В отношении этих величин предполагается:
- каждая из них складывается в общем случае из неизвестных регулярной (детерминированной) и случайной (шумов, ошибок) составляющих;
- между регулярными составляющими этих величин существует стохастическая связь, причем одна из величин, обозначаемая х, является независимой, другая, обозначенная у, - зависимой переменной;
- независимая переменная х условно детерминирована, и ее ошибки проявляются в зависимой переменной у, случайная составляющая которой соответственно увеличена;
- значения случайной составляющей зависимой переменной являются реализацией случайной функции независимой переменной, распределенными по некоторому вероятностному закону, например, нормальному.
Истинное аналитическое выражение функциональной зависимости
У=Л*) (1.15)
неизвестно и рассматриваемая задача состоит в том, чтобы найти приближение, то есть эмпирическую функцию (формулу)
(1.16)
17 значения которой при х = х,- возможно меньше расходятся с в общем случае
неизвестными значениями регулярной (детерминированной) составляющей экспериментальных данных >>/, где /= 1, 2,...,«.
Предложенная постановка задачи аппроксимации эмпирической зависимости принципиально отличается от ее традиционной формулировки, например, в известном учебнике Б. В. Демидовича, И. Б. Марона, Э. 3. Шуваловой [16, стр. 78], где искомую зависимость (1.16) предлагается определять из условия наименьшего расхождения с экспериментальными данными >>,-.
Недостатки традиционной постановки задачи, по-видимому, осознаются авторами учебника [16, стр. 79], указывающими: «... исходные эмпирические данные Xj и у^ как правило, являются приближенными и содержат
ошибки. Поэтому интерполяционная формула, повторяющая эти ошибки, не говоря уже об ее сложности, не являются идеальным решением поставленной задачи; возможно простая эмпирическая формула, сглаживающая местные неправильности, лучше отобразит действительность».
Таким образом, обосновываемый в диссертации принцип минимизации расхождения приближения с в общем случае неизвестными значениями регулярной (детерминированной) составляющей уточняет классическую постановку задачи аппроксимации эмпирической зависимости и ее изложение в учебниках. Это имеет общеметодическое значение и учтено в подготовленных с участием автора учебных пособиях [26, 27, 29].
Кроме отмеченных неопределенностей постановки задач аппроксимации (выбора меры и метода приближения, класса аппроксимирующих функций, оценки ее порядка) построение эмпирической зависимости предполагает удовлетворение априорно неизвестному условию о существовании зависимости в принципе, то есть ее статистической значимости.
Задача аппроксимации многомерной эмпирической зависимости ставится для многих независимых переменных: х\, *2> •¦•> хт- Истинное аналитическое выражение многомерной функциональной зависимости |