Выбор метода и схемы классификации. Оценка вероятности ошибок.



 

Классификация на контрольных выборках. Хорошая статистическая разделимость эталонов еще не гарантирует, что любой метод параметрической классификации будет одинаково хорошо работать. Это мы видели на примере различий между классификацией по евклидову расстоянию и расстоянию Махаланобиса (рис.25). Отличия между классификацией по расстоянию Махаланобиса и методом максимума правдоподобия не столь очевидны, но тоже существуют. Поэтому для выбора наиболее эффективного параметрического классификатора имеет смысл проверить работу этих классификаторов на самом наборе эталонов.

В редакторе сигнатур пакета ERDAS Imagine для этих целей предназначена функция Evaluate > Contingency.Результат классификации эталонов выдается в виде матрицы ошибок, в процентах или в количестве точек. Если выборки содержат более ста точек, вариант в процентах, несомненно, удобнее.

Для К классов матрица ошибок A={aij} имеет размерность K´K. Элемент матрицы aij показывает долю (или количество) точек, попавших из i-го класса в j-й класс. Таким образом, диагональные элементы aii матрицы A показывают долю правильно классифицированных точек, то есть точность классификации. Сумма всех остальных элементов по i-й строке – это количество точек, попавших из i-го класса в другие, то есть ошибка первого рода для i-го класса. Сумма всех, кроме диагонального, элементов i-го столбца – это точки, попавшие в i-й класс из других классов, то есть ошибка второго рода для i-го класса. В идеале матрица ошибок должна быть диагональной, поскольку оценки точности классификации на эталонах всегда завышены по отношению к изображению в целом. Метод, который обеспечивает 100% или близкую к таковой точность классификации на эталонах, и является наиболее подходящим. Если 100% точности добиться не удается, в выборе метода следует ориентироваться на те классы, которые желательно выделить наиболее точно.

В пакете ERDAS Imagine все методы классификации с обучением реализованы в функции Supervised Classificationблока Classifier. Такая реализация позволяет комбинировать эти методы и формировать достаточно гибкие схемы классификации. В нижней части окна функции Supervised Classification(рис.30) имеются две строки, где устанавливается метод классификации – непараметрическое правило (Non-parametric Rule) и параметрическое правило (Parametric Rule). При классификации по непараметрическому правилу к одному классу будут относиться все точки, попавшие либо внутрь гиперпараллелепипеда, построенного по минимума и максимумам сигнатуры класса в каждом канале (режим Parallelepiped), либо в пределы области, выделенной в признаковом пространстве(режим Feature Space).

Если используется непараметрический метод, но нужно как-то расскласифицировать все точки изображения, то для всех не попавших в области решений точек необходимо установить параметрическое правило. В этом случае нужно обратить внимание на некоторые особенности метода максимума правдоподобия. Метод, как мы уже знаем, выбирает тот класс, для которого вероятность появления вектора яркостей x максимальна. У классов с небольшой дисперсией она быстро убывает к краям их эллипсоидов рассеяния, и поэтому на краях диаграммы рассеяния всего изображения вероятность может оказаться максимальной для класса с наибольшей дисперсией. Если это класс очень сложного состава (например, застройка), то отнесение к этому классу крайних точек диаграммы рассеяния может оказаться  не критичным. Однако в некоторых случаях это приводит к совершенно неправдоподобным результатам. Этот эффект подробно рассмотрен в методическом пособии [1].

Во многих случаях такая ситуация возникает при включении в эталоны классов отдельных точек, далеко отстоящих от них в пространстве яркостей, что приводит к неоправданному завышению дисперсии. Именно поэтому, в частности, необходимо проверять гистограммы обучающих выборок, или использовать для создания эталонных участков метод наращивания областей. В целом же наиболее безопасно устанавливать в качестве Unclassifierd Rule классификацию по минимуму евклидова расстояния.

 

Способ определения границ гиперпараллелепипедов в соответствующем методе приводит к тому, что они могут перекрываться. В этом случае необходимо параметрическое правило принятия решения в областях перекрытия. Здесь лучше всего использовать максимум правдоподобия. Еще один способ рассмотрен в методическом пособии [1], но на практике он применяется редко.

Файл расстояний (Distance File). Файл расстояний – это серое полутоновое изображение, где яркость пикселя определяется значением метрики, по которому принято решение об отнесении пикселя к классу (см. разделы 7.3, 7.6). Поскольку решение принимается по минимальному значению такой метрики, то чем больше яркость пикселя в файле расстояний, тем меньше вероятность, что пиксель действительно принадлежит выбранному классу. С этой точки зрения файл расстояний очень удобен для оценки репрезентативности выбранных эталонов и качества классификации в целом.

Если все изображение, созданное в файле расстояний, в целом темное, это означает, что эталоны классов выбраны удачно и охватывают все основные типы объектов сцены. Как правило, наиболее темные участки соответствуют наиболее однородным по яркостным признакам объектам. Более светлые участки обычно приходятся на границы между выбранными классами. Очень яркие пятна соответствуют объектам, далеко отстоящим по яркости от всех выбранных классов (рис.31).

 

 

Нечеткая классификация (Fuzzy Classification). В некоторых пакетах тематической обработки она называется «мягкой классификацией». Для ее выполнения в ERDAS Imagine нужно поставить галочку напротив этого режима в окне контролируемой классификации, показанном на рис.30.

Основанием для выполнения нечеткой классификации является наличие большого количества «смешанных» пикселей на границах между объектами разных классов. То есть спектральная сигнатура пикселя представляет собой суперпозицию спектральных сигнатур соседних классов. В этих случаях как раз и появляются светлые участки в файле расстояний: «смесь» оказывается практически равноудаленной от всех смежных на изображении классов.

Чтобы получить более корректное решение, формируется несколько альтернативных вариантов классификации (количество задается пользователем). В результате получается многослойное классифицированное изображение, в каждом слое которого пиксели относятся  к ближайшему классу в порядке увеличения значения метрики. То есть первый слой – это обычный результат классификации, остальные – его альтернативы. Каждому слою сопоставляется файл расстояний. В дальнейшем решение об отнесении пикселя к одному из альтернативных классов принимается с помощью «нечеткой свертки» (функция Fuzzy Convolution в блоке Classifier). При нечеткой свертке решение об отнесении пикселя к классу принимается с учетом классов смежных с ним пикселей (в окне 3´3) и расстояний сигнатуры пикселя до этих классов в признаковом пространстве.

Во многих случаях, однако, результат нечеткой свертки оказывается близким к результату применения процедуры редактирования «жесткой классификации» по методу преобладающего в окне класса. Эта и другие функции редактирования результата классификации будут рассмотрены в следующем разделе.

 

Контрольные вопросы.

1. Что понимается под спектральной сигнатурой пикселя и спектральной сигнатурой класса? Как связана спектральная сигнатура со спектральным образом пикселя?

2. Что такое разделяющая функция и решающая функция? Как они взаимосвязаны?

3. Какие методы классификации относятся к непараметрическим методам? Для каких целей при классификации такими методами их комбинируют с параметрическими методами?

4. Какая гипотеза о распределении сигнатур классов лежит в основе всех параметрических методов?

5. Почему результат неконтролируемой классификации зависит от способа задания исходных центров?  

6. Какие классы не удается разделить при неконтролируемой классификации, если центры выбираются автоматически, из статистики изображения?

7. На каких изображениях целесообразно применение классификации по минимуму евклидова расстояния? Каким условиям должны удовлетворять в этом случае сигнатуры классов?

8. Что такое расстояние Махаланобиса и в каких единицах оно измеряется?

9. Почему метод, основанный на минимизации среднего байесовского риска, называют методом максимума правдоподобия?

10. Каковы преимущества метода максимума правдоподобия перед остальными параметрическими методами? Почему его опасно использовать при наличии эталонов классов с очень большой дисперсией?

11. Для чего нужны меры статистической разделимости?

12. Что такое файл расстояний? Как он используется при нечеткой классификации?

 

 

 


Дата добавления: 2018-05-12; просмотров: 629; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!