Популярные методы машинного обучения, используемые для построения карт



Метод множественной логистической регрессии

Существует множество работ по ЦПК, где в качестве модели для картографирования почвенных типов используется метод множественной логистической регрессии (Kempen и др., 2009; Brungard и др., 2015; Marchetti и др., 2011). Множественная логистическая регрессия является обобщением логистического регрессионного анализа, применяемого к качественным переменным (Venables, Ripley, 2002).

Предположим, что переменная Yi представляет определенный тип почвы в месте отбора проб, где i = 1, ..., n, а n - это количество почвенных типов, встречающихся на исследуемой территории. В случае, если n равно 2, то у переменной Y могут быть два случая: Y1 и Y2. Вероятность появления Y1 будет равняться p1, а вероятность появления Y2 будет равняться p2. Логистическая регрессия относит вероятность p1 к набору ковариат, используемых для предсказания, используя логистическую связывающую функцию:

logit(p1)=𝑙𝑛(𝑝1𝑝2)=𝑙𝑛(𝑝11−𝑝1)=𝑥1𝛽 (2),

где x1 – это вектор переменных-предсказателей, а β – вектор коэффициентов модели, который, как правило, оцениваются методом максимального правдоподобия.

Уравнение (2) может быть переписано в следующем виде: 𝑝11−𝑝1=𝑒𝑥𝑝(𝑥1𝛽)=𝑒𝑥𝑝(𝜂)(3),

Частное в уравнении (3) именуется вероятностью. Из этого уравнения следует:

𝑝1=𝑒𝑥𝑝(𝜂)1+𝑒𝑥𝑝(𝜂)(4).

Бинарная модель логистической регрессии легко преобразуется в множественную. Если у нас имеется n почвенных типов на исследуемой территории, соответственно будет n переменных Y1,Y2,….,Yn c соответствующими вероятностями появления p1, p2, …., pn. По аналогии с дву-исходной логистической регрессией вероятности будут равняться p1/ pn, p2/ pn,…, pn-1/ pn и будут описываться средними значениями exp(η1), exp(η2), …, exp(ηn-1). Для Σ𝜋𝑖=1𝑛𝑖=1: 𝜋𝑖=𝑒𝑥𝑝(𝜂𝑖)𝑒𝑥𝑝(𝜂1)+𝑒𝑥𝑝(𝜂2)+..+𝑒𝑥𝑝(𝜂𝑛)(5)

где ηn=0. Такое построение модели обеспечивает, что все вероятности находятся в интервале от 0 до 1, а сумма всех вероятностей будет равна 1.

В процессе настройки модели на обучающей выборке формируется таблица, в которой для каждого типа или класса почвы создается вектор с коэффициентами для каждой переменной-предсказателя (ковариаты). При проведении предсказания для всего растра вычисляются вероятности возникновения в этой точке того или иного типа или класса почвы (Kempen и др., 2009). Точка относится к тому классу, вероятность которого для данной точки получается наибольшей. Тем самым, в ходе картографирования для каждой точки растра составляется вектор, состоящий из вероятностей нахождения в этой точке того или иного типа или класса почвы.

Метод случайного леса

Метод случайного леса активно используется в цифровой почвенной картографии для описания пространственного распределения почвенных типов (Barthold и др., 2013; Brungard и др., 2015) и для улучшения старых почвенных карт (PahlavanRad и др., 2014). Этот метод является статистическим методом, и он развивает большую группу методов, так называемых, классификационных и регрессионных деревьев (CART) (Breiman и др., 1984). Классификационные и регрессионные деревья - это непараметрические методы интеллектуального анализа данных, использующие для моделирования рекурсивное разбиение набора данных для изучения взаимозависимостей между зависимой (определяемой) переменной и переменными-предсказателями. Другими словами, это методы, решающие задачи классификации и регрессии путем построения дерева решений. Для этого набор данных из зависимых переменных разбивается последовательно на деревья все более и более мелкие, и на все более и более однородные подмножества. Разбиение основано на том значении переменной-предсказателя, которое наилучшим образом уменьшает «засоренность» в узлах. Важная особенность этих методов в том, что они часто дают четкое представление о структуре данных, то есть о природе отношений между переменной-отклика и переменными-предсказателями (Prasad и др., 2006). Однако использование этих методов связано с высокой чувствительностью структуры получаемых деревьев к выбору набора данных, на основе которых может происходить переобучение (Prasad и др., 2006).

Метод случайного леса был разработан с целью улучшения прогнозирования при моделировании. Для метода случайного леса процесс построения модели такой же, как и для классификационных и регрессионных деревьев (CART) с той разницей, что строится множество деревьев, то есть лес моделей. Для каждого дерева, используется только подмножество переменных-предсказателей. Число прогнозирующих переменных являетсяизменяемым пользователем параметром и перестановка переменных между деревьями происходит случайным образом. Этот процесс реализован в пакете «RandomForest» (Liaw, Wiener, 2002). Случайный выбор переменных-предсказателей, среди которых лучшее разбиение достигается в каждом дереве, увеличивает разнообразие леса моделей и, следовательно, уменьшает корреляцию между отдельными деревьями. Это предотвращает переобучение (Breiman, 2001).

Каждое дерево строится на основе бутстреп-выборки входного набора данных, который позволяет на основе оставшейся после изъятия части выборки для построение дерева провести надежную оценку погрешности. Погрешность предсказания вычисляется для каждого дерева, а затем обобщается по всем классификаторам. Результатом предсказания на основе метода случайного леса является один единственный прогноз, который получается из набора предсказаний путем агрегации предсказаний по всем деревьям на основе большинства голосов. Это означает, что самый часто предсказываемый класс на основе каждого дерева из набора деревьев считается результирующим (Liaw, Wiener, 2002).

Преимущества процедуры, заложенной в основу метода случайного леса (Diaz-Uriarte, deAndres, 2006):

1) выше производительность прогнозирования;

2) отсутствует переобучение;

3) низкая корреляция отдельных деревьев между собой, поскольку разнообразие лесов увеличивается за счет использования ограниченного числа переменных-предсказателей;

4) низкое смещение и дисперсия из-за усреднения по большому количеству деревьев.

Одним из основных недостатков метода случайного леса является внутренняя сложность получаемого леса моделей (Prasad и др., 2006), которая затрудняет интерпретацию взаимозависимостей между зависимымипеременными и переменными-предсказателями, поскольку невозможно исследовать строение всех деревьев в лесу.

Во время проведения процедур по моделированию путем метода случайного леса на основе обучающей выборки создается большое количество деревьев. На основе полученных деревьев происходит классификация всех точек растра и отнесение их к одному из классов. То есть каждая точка классифицируется всем множеством деревьев, полученных в результате обучения. Конечным результатом классификации для данной точки являлся тот класс, за который проголосовало большинство деревьев.

Метод опорных векторов

Существует множество работ по ЦПК, где в качестве модели для картографирования почвенных типов и почвенных свойств используется метод опорных векторов (Kovačević и др., 2010; Simin и др., 2010; Lamorski и др., 2008). Метод опорных векторов - это набор непараметрических методов машинного обучения, работающий с бинарными классификационными моделями. Основная идея метода — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Идею метода удобно проиллюстрировать на примере: даны точки на плоскости, разбитые на два класса. Проведем линию, разделяющую эти два класса. Далее, все новые точки (не из обучающей выборки) автоматически классифицируются следующим образом: точка выше прямой попадает в класс A, точка ниже прямой — в класс B.

Такую прямую назовем разделяющей прямой. Однако, в пространствах высоких размерностей прямая уже не будет разделять наши классы, так как понятие «ниже прямой» или «выше прямой» теряет всякий смысл. Поэтому вместо прямых необходимо рассматривать гиперплоскости — пространства, размерность которых на единицу меньше, чем размерность исходного пространства. В трехмерном пространстве, например, гиперплоскость — это обычная двумерная плоскость. В нашем примере существует несколько прямых, разделяющих два класса:

С точки зрения точности классификации лучше всего выбрать прямую, расстояние от которой до каждого класса максимально. Другими словами, выберем ту прямую, которая разделяет классы наилучшим образом (красная прямая на рис.1.2). Такая прямая, а в общем случае — гиперплоскость, называется оптимальной разделяющей гиперплоскостью. Вектора, лежащие ближе всех к разделяющей гиперплоскости, называются опорными векторами (supportvectors). На рисунке 1.2 они помечены красным.

Пусть имеется обучающая выборка: (x1,y1),…, (xm,ym), xiϵRn, yiϵ {-1;1}. Метод опорных векторов строит классифицирующую функцию F в виде

F(x) = sign ([w,x]+b) (6),

где [,] — скалярное произведение, w — нормальный вектор к разделяющей гиперплоскости, b — вспомогательный параметр. Те объекты, для которых F(x) = 1 попадают в один класс, а объекты с F(x) = -1 — в другой. Выбор именно такой функции неслучаен: любая гиперплоскость может быть задана в виде [w,x]+b=0 для некоторых w и b (рис. 1.3).

Далее, мы хотим выбрать такие w и b которые максимизируют расстояние до каждого класса (рис. 1.3). Можно подсчитать, что данное расстояние равно 1‖𝑤‖. Проблема нахождения максимума 1‖𝑤‖ эквивалентна проблеме нахождения минимума ‖𝑤‖2. Запишем все это в виде задачи оптимизации:

{𝑎𝑟𝑔𝑚𝑖𝑛𝑤,𝑏‖𝑤‖2,𝑦𝑖 ([𝑤,𝑥]+𝑏)≥1,𝑖=1,…,𝑚.(7)

которая является стандартной задачей квадратичного программирования и решается с помощью множителей Лагранжа.

На практике случаи, когда данные можно разделить гиперплоскостью довольно редки. В этом случае все элементы обучающей выборки вкладываются в пространство X более высокой размерности с помощью специального отображения 𝜑:𝑅𝑛→𝑋 . При этом отображение 𝜑 выбирается так, чтобы в новом пространстве X выборка была линейно разделима. Классифицирующая функция F принимает вид F(x) = sign ([w, 𝜑 (x)]+b).

При бинарном моделировании предполагается, что почва принадлежит только к одному классу, при этом существует всего два класса (С={c1,c2}). Каждая классификационная задача с n количеством классов может быть смоделирована как последовательность (n/2) бинарных задач с использованием подхода один-против-одного, при котором происходит возникновение n*(n-1)/2 бинарных классификаторов по одному для каждой пары классов. Окончательное решение принимается путем голосования, т. е. наиболее часто прогнозируемый класс выбирается в качестве результирующего.

 


 

Объект исследования


Дата добавления: 2018-06-01; просмотров: 329; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!