ВВЕДЕНИЕ
t
Актуальность темы
Наметившиеся в последнее время тенденции указывают на то, что современные промышленные системы быстро расширяют горизонты применения систем машинной обработки изображений, а системы машинного зрения становятся неотъемлемой частью общего плана автоматизации промышленных предприятий.
Одной из важнейших проблем, привлекающей в настоящее время ^ пристальное внимание ученых и инженеров, является проблема
автоматического анализа формы и состояния пространственных объектов, информация о которых представлена в виде изображений — фотографий, видеосигналов и т.д. Например, при дистанционных исследованиях природных ресурсов земли с помощью космических или авиационных средств необходимо анализировать форму, размеры и состояние лесных массивов, водных поверхностей, подсчитывать площади сельскохозяйственных угодий, занятых под посевы, и т.п. В медико-биологических исследованиях изображения молекул, клеток, их ядер, формируемые микроскопом, рентгеновских снимков, являются основой анализа биологических процессов и диагностики заболеваний. В ядерной физике по изображениям треков — следов, оставляемых частицами вдоль своих траекторий в пузырьковых или искровых камерах, в ядерных фотоэмульсиях, камерах Вильсона и т.д., определяют массу, заряд и другие характеристики частиц. Все новые элементарные частицы были открыты путем анализа изображений треков. В визуальном контроле на промышленных предприятиях, для обеспечения качества деталей путем проверки формы. При использовании в качестве органов зрения роботов и др.
Хорошо известно, что в настоящее время полностью автоматизировать процесс анализа и интерпретации изображений в перечисленных областях невозможно.
Дело не только в том, что для переработки больших объемов информации, мк содержащейся в изображении, требуются исключительно большие мощности
вычислительных средств. К сожалению, полные математические модели объектов и явлений, а также процессов регистрации их на изображении, как правило, очень сложны, а в ряде случаев до сих пор в деталях и не известны. Это обстоятельство является главным препятствием на пути создания эффективных алгоритмов автоматического анализа и интерпретации сложных изображений.
Между тем многие из упомянутых выше задач на качественном уровне достаточно быстро и легко решает человек. Речь идет, например, о диагностике заболеваний по изображениям цитопрепаратов, расшифровке запутанных ситуаций на изображениях треков элементарных частиц, диагностике состояния некоторых сельскохозяйственных культур по результатам аэрофотосъемки.
Сам факт, что при этом человек достаточно хорошо представляет себе объект исследования, говорит о том, что в основе решения всех таких задач лежат достаточно представительные модели, среди которых зрительный анализатор производит выбор, основываясь на информации, представленной в изображении. Понятно, что такие модели суть не что иное, как отражение научного опыта и практической деятельности человека, но в данный момент мы имеем слишком мало указаний на то, каким образом эта сторона человеческого интеллекта может быть формализована для реализации на ЭВМ.
Вместе с тем имеется довольно обширный класс важных задач анализа изображений, с которыми ЭВМ справляется существенно лучше, чем человек. В их основе лежат простые модели процесса формирования изображений, позволяющие в той или иной степени анализировать информацию о форме объектов, содержащуюся в изображении. Однако большинство таких систем узко специализированы и для своей работы требуют априорного знания объекта исследования, что в большинстве случаев невозможно.
Вопросы распознавания изображений и анализа форм объектов получили фундаментальное развитие в работах научных коллективов Вычислительного центра РАН, Института систем обработки изображений РАН, Института проблем передачи информации РАН, Института прикладной математики и кибернетики при Нижегородском университете, кафедры вычислительной техники при Нижегородском техническом университете и др. Значительный вклад в решение проблем распознавания изображений внесли: Р.Байчи, П.Берт, А.Л.Горелик, Р.Дуда, Н.Г.Загоруйко, В.Кантони, В.В.Кондратьев, С.Левиальди, Д.Марр, М.Минский, Ф.Розенблатт, В.А.Утробин, Ю.Г.Васин, Р.Фишер, П.Харт и многие другие российские и зарубежные ученые.
Цель работы
Разработка методов и средств формообразования объектов наблюдаемой сцены в условиях априорной неопределенности.
На защиту выносятся:
1. Информационная модель формообразования объектов наблюдаемой сцены в условиях априорной неопределенности.
2. Информационная модель процесса сегментации.
3. Процедуры сегментации изображений.
4. Процедура формирования обобщенных эталонов форм.
5. Информационная модель принятия решения о форме объекта по двумерным признакам.
6. Методы анализа поверхностей с позиций теории активного восприятия.
7. Информационная модель формообразования поверхностей.
8. Методы получения дополнительной информации о форме.
Методы исследования
Работа базируется на методах системного анализа, теории активного
восприятия, математической теории управления (теории групп, графов, устойчивости), теории вычислительных систем, теории поверхностей, теории распознавания образов и цифровой обработки изображений.
Научная новизна
В диссертационной работе получены следующие основные результаты, характеризующиеся научной новизной:
Разработана информационная модель формообразования объектов изображения в условиях априорной неопределенности, в рамках которой: A 1. Разработана иерархия фильтров, решающая задачу сегментации
изображения с различной степенью точности в условиях априорной неопределенности.
2. Разработана информационная модель принятия решения о форме объекта по двумерным признакам в условиях априорной неопределенности и методы формирования образов объектов по двумерным признакам.
3. Разработаны методы анализа поверхностей применительно к теории активного восприятия и методы формирования ^/-пирамиды принятия решения о форме наблюдаемой поверхности с различной степенью точности, в условиях априорной неопределенности.
Практическая ценность
На базе разработанных методик решены следующие прикладные задачи:
1. Разработаны алгоритмы сегментации бинарных и полутоновых изображений, а так же изображений при наличии шумов.
2. Разработана процедура подавления шума, основанная на устойчивости структуры объекта к изменениям функции яркости изображения, не требующая априорного знания природы шума на исходном изображении.
8
3. Разработана информационная модель определения координат подвижного объекта по одному двумерному изображению.
4. Разработано алгоритмическое обеспечение поиска двумерного объекта на заданном изображении.
Реализация результатов работы
Результаты исследований реализованы:
1. В программных продуктах НИР "Теоретические исследования и машинное моделирование процессов этапа узнавания изображений", "Теоретическое и экспериментальное моделирование процессов этапа понимания изображений" финансируемых по программе РФФИ (проекты № 01-01-00452, № 01-01-00459).
2. В программных продуктах НИР "Исследование методов распознавания и идентификации объектов", "Разработка сверхбыстрых алгоритмов идентификации объектов", финансируемых по программе ФГУП НИИИС (проекты № 3350-33-02, № 3350-25-03).
3. В учебном процессе Нижегородского государственного технического университета.
Апробация работы
Основные результаты диссертационной работы докладывались и обсуждались на следующих научно - технических конференциях и семинарах:
- Всероссийская научно-техническая конференция "Информационные системы и технологии" (Нижний Новгород, 2001);
- Научно-технический форум "Будущее технической науки Нижегородского региона" (Нижний Новгород, 2002);
- 8-я Нижегородская сессия молодых ученых (технические науки) (Дзержинск, 2003);
- 2-я региональная молодежная научно-техническая конференция "Будущее технической науки Нижегородского региона" (Нижний Новгород, 2003).
Кроме того, результаты работы докладывались на семинарах кафедры вычислительной техники Нижегородского государственного технического университета.
Публикации
Основное содержание диссертационной работы отражено в 11 печатных работах.
Структура и объем диссертации
Диссертационная работа состоит из введения, семи глав, заключения, изложенных на 184 с. машинописного текста, содержит 143 рисунка, 5 таблиц и библиографию из 96 наименований.
10
ГЛАВА 1
Аналитический обзор современных методов обработки изображений, применительно к задаче определения формы объектов
1.1. Исходные положения
1.1.1. Изображение
Определение: Изображение есть функция ji(x, у), неотрицательная действительная функция действительных аргументов, характеризующая распределение яркости в поле зрения G.
Использование цифровых методов обработки изображений предполагает в качестве необходимого этапа пространственную и яркостную дискретизацию непрерывного изображения \i(x, у), т.е. замену координат его элементов дискретными значениями и квантование яркости этих элементов на определенное число уровней. В памяти ЭВМ информация об изображении хранится в виде матрицы значений, заданной на целочисленной прямоугольной решетке, покрывающей область поля зрения G.
Таким образом, входной информацией будем считать матрицу М размером пхт, где п и т — числа строк и столбцов дискретного поля зрения G. Область G можно рассматривать как растр, матрицу М— как функцию на растре: значение M(i,j) равно яркости в точке (i,j) е G, i = 1, ..., п, j = 1, ..., т. Функцию M(i,j) условимся называть цифровым изображением (или просто изображением) на растре G.
1.1.2. Форма
Определение: Под формой объекта понимается его внешнее очертание, наружный вид и контуры [77].
11
Форма объекта создается поверхностями, которые отделяют материальную Щ, массу предмета от окружающего пространства и замыкают ее внутри, как нечто
самостоятельное и целое [67].
В дальнейшем обсуждается распознавание и узнавание именно формы объекта, а не самого объекта, т.к. объект характеризуется еще целым рядом присущих ему свойств (материал, внутреннее содержание и т.п.), которые не доступны по его изображению.
1.1.3. Объект на изображении
ж Определение: Объект, представленный на M(i, у), есть связная область
точек, т.к. он, как правило, не может состоять из разрозненных частей.
Определение: Две точки растра G с координатами (i, j) и (р, s) назовем соседними в смысле 4-связности, если | / —р \ + | j — s \ ~ 1, и соседними в смысле 8-связности, если тах{ | / —р | , \j — 5 | } = 1 .
Определение: Множество точек Е a G называется 4-связным (соответственно 8-связным), если для любых двух точек А, В е G найдется множество точек А = А], А2, ..., A,.h A, = В, обладающее следующими свойствами: Ау,• е Е (J - 1, ..., t); точки А-, и Ах+\ — соседние в смысле 4-связности (соответственно 8-связности).
Любое 4-связное множество является в то же время 8-связным. Обратное утверждение неверно.
1.1.4. Сегментация
Сегментация изображений - начальный этап построения формального описания сцены, качество выполнения которого во многом определяет успех решения задачи распознавания изображений, интерпретации или идентификации визуально наблюдаемых объектов и, в конечном счете, выработки управляющих воздействий в робототехнических системах [10, 11].
12
Изображение M{i, j) реальной сцены есть совокупность изображений отдельных объектов и фона. Представим его в виде M(iJ) = H,(iJ)+ ... + Hs(i,j) + Нф(1,]),
где s — число объектов сцены; Hk(i, j) — изображение к-то объекта или видимой его части (к = 1, .... s); Нф(г^') — изображение фона. При этом
И (i,j) = 0,при(ij) ?G, }
> (11)
где Gkc^G — область к-то объекта; G^ cz G — область фона; Ш G, и ... u Gskj СФ = С, Gi nGj = 0 при / *j
Определение: Сегментацией изображения называется формирование из изображения M(i, j) изображений ///(*, у), ..., Hs{i, j) и Нф{1, j), для которых выполнено условие (1.1). Эта задача равносильна нахождению областей объектов Gj,..., Gs и области фона G$ [61].
1.2. Классификация систем обработки изображений
ф Существует несколько основных подходов к классификации систем
обработки изображений (СОИ) [39]:
1) на основе принципов, используемых для восприятия информации;
2) на основе способов преобразования визуальной информации в видеосигнал;
3) на основе методов обработки и интерпретации визуальной информации и др.
В различных классификационных подходах определяются и сравниваются функциональные сходства и различия пассивных и активных систем, монокулярных и бинокулярных, бинарных и многотоновых, стереоскопических и дальнометрических, голографических и интерферометрических.
13
При использовании первого подхода, т.е. классификации на основе принципов, используемых для восприятия информации, СОИ могут быть разделены на два класса:
1) класс бесконтактных СОИ, к которому может быть отнесен, во-первых, подкласс оптических анализаторов, действующих в видимом, ИК и УФ диапазонах спектра и включающий в себя различные типы оптико-электронных систем (активные и пассивные, монокулярные и бинокулярные, стереоскопические и дальнометрические и другие), и, во-вторых, подкласс не оптических систем, к которому могут быть отнесены рентгеновские, ультразвуковые и другие системы;
2) класс контактных матричных анализаторов формы и размеров контактной зоны, к которому могут быть отнесены полупроводниковые, световодные, ультразвуковые и другие системы.
При использовании классификации СОИ на основании способов преобразования визуальной информации в видеосигнал эти системы могут быть разделены на следующие классы:
1) пассивные системы анализа двумерных сцен;
2) пассивные стереоанализаторы трехмерных сцен;
3) активные монокулярные системы анализа объемных сцен со структурированным подсветом;
4) активные стереоанализаторы трехмерных сцен;
5) дальнометрические анализаторы трехмерных сцен;
6) интерференционные и муаровые анализаторы;
7) голографические интерференционные анализаторы и др. Классификация СОИ может быть выполнена также на основе различий в
используемых методах обработки и интерпретации визуальной информации. По функциональной сложности выполняемых операций обработки визуальной информации, т.е. по уровню используемого искусственного интеллекта, СОИ могут быть разделены на три класса:
14
1) упрощенные системы анализа визуальной информации;
2) системы среднего уровня сложности, осуществляющие анализ двумерных сцен и распознавание плоских форм;
3) система высокого уровня сложности, предназначенные для анализа трехмерных сцен, распознавания и восстановления трехмерных форм объектов.
Первый класс СОИ составляют упрощенные системы анализа визуальной информации. Этот класс характеризуется существенно уменьшенной пространственной разрешающей способностью и, соответственно, упрощенными методами обработки воспринимаемой визуальной информации. В таких системах могут, например, анализироваться только черно-белые переходы максимум в 10 строках ТВ-изображения. Размещение этих строк выбирается таким образом, чтобы они располагались на наиболее характерных местах проекции объекта. В этом случае обычно объект должен быть предварительно перемещен до упора перед видеодатчиком и может занимать лишь небольшое число дискретных положений. При этом достаточно часто налагаются дополнительные ограничения на форму объекта, например некоторые системы могут распознавать только круглые объекты с круглыми отверстиями и т.д.
К этому же классу могут быть отнесены различные контактные матричные системы анализа визуальной информации: полупроводниковые, ультразвуковые, световодные и др. В этих матричных визуальных анализаторах выявляются форма, площадь и ориентация контактной зоны с последующей ее идентификацией и распознаванием контактирующего объекта.
Системы второго класса, предназначенные для выполнения анализа двумерных сцен, могут идентифицировать форму объектов только по двумерным признакам. В таких системах обычно определяется целый ряд свойств того или иного объекта, а для распознавания используется метод минимального отклонения от соответствующих данных объекта записанных в
15
памяти. Анализируемые объекты обычно размещают на плоском столе или на ленте конвейера в поле зрения видеодатчика, который обычно является неподвижным.
Системы третьего класса имеют, как правило, трехмерные анализаторы объемных сцен, снабженные специальными программами и действующие по определенным стратегиям. К этому классу относятся как бинокулярные пассивные стереосистемы, действующие без специального подсвета, так и активные стереосистемы, действующие со специальным сканирующим лазерным подсветом. Сюда относятся также монокулярные системы со специальным структурированным подсветом и сканирующие лазерные дальнометрические системы, осуществляющие анализ и формирование дальностного изображения; муаровые, интерферометрические и голографические интерферометрические СОИ с телевизионным анализом визуальной информации и ее обработкой с помощью микрокомпьютеров.
В ряде систем третьего класса программа анализа сцены формирует прежде всего гипотезу самого общего вида относительно содержания анализируемого изображения, причем эта гипотеза в ходе последующего анализа непрерывно уточняется. Результат каждого шага анализируется с учетом результатов предыдущих шагов и накопленной в памяти информации, при этом оценивается степень вероятности гипотезы. В качестве гарантии, исключающей неправильные решения, в каждой фазе обрабатывается несколько альтернативных ветвей, развиваемых до различной глубины, причем дальнейшие этапы в каждом случае исходят из наиболее вероятной гипотезы.
В системах третьего класса могут использоваться несколько приемных видеодатчиков, с помощью которых воспринимаются изображения различных зон рабочего пространства, а также одних и тех же зон, наблюдаемых под несколькими углами зрения, причем могут применяться панорамные видеодатчики, кругового обзора, а также подвижные видеодатчики,
16
перемещаемые в пространстве с помощью специальных манипуляционных устройств.
Необходимо отметить, что каждый из указанных классов СОИ имеет свои области оптимального применения, и эти классы при дальнейшем развитии СОИ, по-видимому, будут не конкурировать, а дополнять друг друга в комплексных системах.
1.3. Современные методы анализа и определения форм
К методам анализа и определения формы объектов по двумерным признакам, можно отнести методы распознавания двумерных образов, относящихся к системам среднего уровня по вышеприведенной классификации сложности.
Основная задача распознавания заключается в построении правила, позволяющего отнести наблюдаемый объект, заданный на системе признаков (параметров), к одному из классов, удовлетворяющих требованиям сходства -максимум однородности внутриклассовых объектов при максимуме различия на межклассовых объектах [28, 33].
При выборе системы признаков основной целью является сокращение размерности входного описания с получением конечного множества существенных признаков, обеспечивающих однозначность решения задачи классификации на этапе распознавания и отвечающих требованиям необходимости и достаточности [2, 28, 33, 80]. При этом под достаточностью множества признаков понимают минимальный набор, позволяющий разделить классы с заданной точностью, а под необходимым числом признаков из достаточного множества понимают подмножество наиболее информативных признаков, либо подмножество признаков, отвечающих требованию минимальной стоимости [28, 33].
Сокращение размерности, как любая оптимизационная задача, предполагает использование некоторого критерия информативности. В
17
|