Прогноз с использованием аналога



К.Л. Восканян, А.Д. Кузнецов, О.С. Сероухова, Т.Е. Симакина

Оценка возможностей метода аналогов для текущего прогноза температуры воздуха // Вестник Тверского государственного университета №1 (58) 2019, Серия «Прикладная математика» С. 101-116

 

УДК 681.518:551.50:551.501

 

ОЦЕНКА ВОЗМОЖНОСТЕЙ МЕТОДА АНАЛОГОВ ДЛЯ ТЕКУЩЕГО ПРОГНОЗА ТЕМПЕРАТУРЫ ВОЗДУХА

К.Л. Восканян, А.Д. Кузнецов, О.С. Сероухова, Т.Е. Симакина

ФГБОУ ВПО Российский государственный гидрометеорологический университет,

195196 Санкт-Петербург, Малоохтинский пр., д. 98

E-mail: tatiana.simakina@gmail.com

Аннотация. Рассматривается алгоритм прогнозирования нестационарных временных рядов, основанный на методе аналогов. Предлагаемый метод тестируется на значениях температуры воздуха по данным автоматической метеорологической станции. Построены шесть моделей прогноза, использующих различные меры сходства, определена ошибка прогноза на независимой выборке. Сравнение с оценкой инерционного прогноза позволило прийти к заключению, что метод аналогов дает удовлетворительные результаты текущего прогнозирования температуры.

Ключевые слова: метод аналогов, текущий прогноз температуры, меры близости.

 

Введение

Несмотря на значительное число работ по разработке методов прогнозирования временных рядов и  их практическому применению, задача получения адекватного прогноза временного ряда остается по-прежнему актуальной, поскольку существующие методы часто дают слишком большую ошибку [1,2]. Это особенно справедливо для нестационарных рядов, которыми в большинстве случаев являются временные ряды, содержащие данные измерений метеорологических величин. Одним из возможных способов прогнозирования является метод аналогов. Отметим, что метод аналогов может использоваться в самых различных предметных областях [3,4].

Метод аналогов, иллюстрация которого представлена на рис. 1,  заключается в поиске в предыстории временного ряда длины n среди всех векторов размерности  l, составленных из всех возможных наборов отрезков этого временного ряда (fi, fi+1, . . . , fi+l−1), одного или нескольких векторов, наиболее «похожих» на последний в рассматриваемой выборке вектор (fn−l+1, fn−l+2, . . . , fn). При этом мера сходства («похожести») определяется с помощью задания соответствующей метрики. Продолжение во времени такого отрезка-аналога, т.е. его последующие значения должны быть близки (с точки зрения использованного критерия «похожести») на соответствующее продолжение значений текущего отрезка, а эти значения - это прогностические значения временного ряда [5].

 

Рис. 1. Иллюстрация выявления во временном ряду отрезка, аналогичного текущему (содержащему последние измеренные значения) и построения прогностического отрезка по его продолжению

 

Таким образом, основные этапы метода аналогов следующие:

¾  поиск и выбор аналога, построение модели и её исследование,

¾  экстраполяция данных с аналога на изучаемый объект,

¾  верификация экстраполяционных выводов.

 

Поиск и выбор аналога

Меры сходства можно подразделить на четыре вида [6 - 9]:

- коэффициенты корреляции;

    - меры расстояния;

    - коэффициенты ассоциативности;

- вероятностные коэффициенты сходства.

Наиболее широкое распространение получили меры расстояния и коэффициенты корреляции, поэтому в данной работе рассматриваются именно они. Два отрезка временного ряда идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю, а коэффициент корреляции равен 1.

Рассмотрим наиболее известные методы оценки расстояния между отрезками временного ряда (метрики), заданными векторами x и y, и методику их применения при реализации метода аналогов.

1. Стандартная Евклидова метрика:

 


                                                   или                                                         (1)

                                                          

 

где х и у – значения временного ряда, исследуемого на принадлежность к аналогу отрезка и контрольного отрезка-эталона соответственно;

n – длина векторов х и у – аналога и эталона.

    Тот отрезок х, для которого значение среднего квадратического отклонения окажется минимальным, принимается за аналог контрольному отрезку временного ряда у.

2. Квадрат Евклидова расстояния, когда возведение в квадрат стандартного Евклидова расстояния придает большие веса более отдаленным друг от друга значениям:

 


                                                          или                                                     (2)

 

3. Манхеттенское расстояние, или «расстояние городских кварталов» (city-block) определяется следующим образом:

 

                                                                                                                                   (3)

 

Манхэттенское расстояние позволяет уменьшать влияние отдельных больших выбросов.

4. Относительное расстояние, при котором метрика определяется относительной разностью совпадения двух векторов (двух отрезков временного ряда):

 

                                                                                                                           (4)

 

 

5. Коэффициент корреляции, определяющий степень взаимного влияния изменения двух векторов (двух отрезков временного ряда):

 

                                                                 (5)

 

Следующие метрики содержат эмпирические параметры, позволяющие придать их использованию более универсальный подход к определению степени близости векторов, однако задание таких параметров является не тривиальной задачей.

6. Степенное расстояние, где r и p — параметры, определяемые пользователем:

 

                                                                                                                         (6)

 

Данная метрика позволяет прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие значения сильно отличаются. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r - за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра: r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.

7. Метрика Минковского:

 


                                                                                                                         (7)

     

 

 

В рассмотренных схемах сравнения отрезков временного ряда предполагалась равноценность элементов отрезков с точки зрения определения их близости и, тем самым, их равноценность для последующего прогностического отрезка. В этом случае алгоритмы сравнения упрощаются. Однако такое уравнивание не учитывает уменьшение ценности в нем элементов, содержащихся в эталонном отрезке, по мере удаления от его «правого» края, т. е. по мере удаления от последнего (до начала текущего прогноза) имеющегося во временном ряду элемента.

Частично этот недостаток устраняется при использовании следующей метрики, предполагающей введение весовых коэффициентов для элементов, сравниваемых между собой векторов.

8. Диагонально взвешенная  Евклидова метрика:

                                                                                                                          (8)     

 

                                                                        

 

где матрица Λ = diag(λ).

Для диагональной матрицы последнее соотношение можно записать в следующем виде:

 

                                                                                                                 (9)

 

Для диагонально взвешенной Евклидовой метрики общим предположением является то, что конец предыстории для прогноза более важен, чем его начало. Поэтому параметры λii увеличиваются с порядковым номером i. В частности можно предположить, что последовательность весовых параметров λii имеет степенной вид:

 

                         λii = λ1ni+1,   0 < λ1 < 1, i = 1, . . . , n.                            (10)

 

Тогда для определения матрицы Λ достаточно задать, например,        λ11 = λ1 . Пример задания диагональных элементов матрицы Λ для трех значений параметра λ1 приведен в табл. 1.

 

Таблица 1 . Диагональные элементы матрицы Λ для трех значений параметра   λ1

                                                                              

λii => λ1,1 λ2,2 λ3,3 λ4,4 λ5,5
λ1 = 0.2 0.0003 0.0016 0.008 0.04 0.2
λ1 = 0.5 0.0312 0.0625 0.125 0.25 0.5
λ1 = 0.667 0.132 0.198 0.296 0.444 0.667

 

Рассмотренный вариант задания диагональных элементов матрицы Λ не связан со свойствами имеющейся выборки временного ряда и подразумевает эвристический подбор этих параметров. Следовательно, такой подход к определению метрики оставляет неопределенность в задании параметров матрицы Λ. Эту неопределенность в реализации расчетов с использованием диагонально взвешенной Евклидовой метрики можно преодолеть, определив оптимальное значение параметра λ1 на основе проведения серии численных экспериментов на имеющемся архиве экспериментальных данных.

    9) Расстояние Махаланобиса, формула которого имеет следующий вид:

 

                                                        (11)

 

где Σ - общая внутригрупповая дисперсионно-ковариационная матрица. В отличие от метрик Минковского и Евклидовой, эта метрика связана с корреляциями переменных, задаваемых с помощью матрицы дисперсий-ковариаций.

    Из представленных выше 9-ти оценок близости аналога к эталонному отрезку временного ряда, в работе рассматривались подходы под номерами 1, 3, 4, 5, 7 и 8.

 

Прогноз с использованием аналога

 

После нахождения отрезка-аналога осуществляется этап экстраполяции его продолжения на заданное количество шагов. Рассмотрены два способа такой экстраполяции.

1) Адаптивная композиция моделей прогнозирования. Если находится только один «ближайший» вектор, то прогноз определяется как следующие за ближайшим отрезком-аналогом на длину заблаговременности прогноза. Если при поиске аналогов находятся k аналогов, то для прогноза могут использоваться все k продолжений отрезков-аналогов. При использовании адаптивной композиции моделей (АКМ, гибридная АКМ) прогноз формируется как взвешенная сумма прогнозов, полученных по альтернативным моделям. Такой подход удобен в использовании для случаев, когда возникают трудности с однозначным выбором одной определенной структуры модели.

Применение АКМ возможно в следующих случаях:        

1) последовательное применение одной методической прогностической модели;        

2) применение нескольких прогностических моделей;     

3) применения методической прогностической модели и инерционного прогноза и т.п.

Поскольку в данной работе рассматривается реализация 6 метрик для поиска аналогов, то модель адаптивной композиции может быть применена независимо для каждой метрики с использованием нескольких прогностических отрезков временного ряда: оптимального и квазиоптимальных. В этом случае прогноз рассматривается как суперпозиция найденных аналогов отдельно по каждой из 6 метрик с весами, рассчитанными с использованием ранжированных расстояний эталона y от оптимального (i = 1) и квазиоптимальных (i = 2, 3, … , k ) векторов по следующим соотношениям [10]:

                                                                                                    (12)

где x* - прогностичеcкое продолжение вектора x,

                              (13)

 

При расчете весовых коэффициентов предполагается, что ранжирование отрезков-аналогов идет в порядке возрастания значений ρ(x, y) – чем меньше эта величина, тем «ближе» отрезок-аналог x эталонному отрезку y. Такой подход справедлив для всех метрик, кроме коэффициента корреляции: чем больше по абсолютной величине коэффициент корреляции, тем «ближе» отрезки. Поэтому в этом случае при расчете весовых коэффициентов использовался параметр

 

ρr(x , y ) = 1 – | r(x , y ) |.                            (14)

 

В формуле (13) для Wi  знаменатель дроби: ρ(xk + 1 , y ) – это расстояние до xk + 1 аналога, которое определяется, но соответствующий этому аналогу прогностический отрезок в расчете x* не участвует.

2) Коррекция прогностического отрезка, найденного по методу аналогов.

Предположим, что значения эталонного отрезка y(i) и  отрезка-аналога x(i) связаны следующим соотношением:

 

                            x(i) = k1 y(i) + k0 + ε, i = 1, 2, .. , m,                       (15)

где ε – невязка (погрешность такого представления), которую при определении коэффициентов k1 и k0 нужно минимизировать. Такую минимизацию можно получить, используя метод наименьших квадратов. Тогда, решая уравнение

 

                                         x(i) = k1 y(i) + k0                                                         (16)

 

относительно y(i) и заменяя его на x*(i)кор , для скорректированного прогноза можно записать:

 

                   x*(i)кор = x*(i)/ k1 - k0, i = 1, 2, .. , m.                        (17)

 

 


Дата добавления: 2020-12-22; просмотров: 65; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!