Методы размножения выборок (бутстреп-методы)



 

Эконометрика и прикладная статистика бурно развиваются последние десятилетия. Серьезным (хотя, разумеется, не единственным и не главным) стимулом является стремительно растущая производительность вычислительных средств. Поэтому понятен острый интерес к статистическим методам, интенсивно использующим компьютеры. Одним из таких методов является так называемый "бутстреп", предложенный в 1977 г.Б. Эфроном из Станфордского университета (США).

Сам термин "бутстреп" - это "bootstrap" русскими буквами и буквально означает что-то вроде: "вытягивание себя (из болота) за шнурки от ботинок". Термин специально придуман и заставляет вспомнить о подвигах барона Мюнхгаузена.

В истории эконометрики было несколько более или менее успешно осуществленных рекламных кампаний. В каждой из них "раскручивался" тот или иной метод, который, как правило, отвечал нескольким условиям:

- по мнению его пропагандистов, полностью решал актуальную научную задачу;

- был понятен (при постановке задачи, при ее решении и при интерпретации результатов) широким массам потенциальных пользователей;

- использовал современные возможности вычислительной техники.

Пропагандисты метода, как правило, избегали беспристрастного сравнения его возможностей с возможностями иных эконометрических методов. Если сравнения и проводились, то с заведомо слабым "противником".

В нашей стране в условиях отсутствия систематического эконометрического образования подобные рекламные кампании находили особо благоприятную почву, поскольку у большинства затронутых ими специалистов не было достаточных знаний в области методологии построения эконометрических моделей для того, чтобы составить самостоятельное квалифицированное мнение.

Речь идет о таких методах как бутстреп, нейронные сети, метод группового учета аргументов, робастные оценки по Тьюки-Хуберу (см. главу 10), асимптотика пропорционального роста числа параметров и объема данных и др. Бывают локальные всплески энтузиазма, например, московские социологи в 1980-х годах пропагандировали так называемый "детерминационный анализ" - простой эвристический метод анализа таблиц сопряженности, хотя в Новосибирске в это время давно уже было разработано продвинутое программное обеспечение анализа векторов разнотипных признаков (см. главу 8).

Однако даже на фоне всех остальных рекламных кампаний судьба бутстрепа исключительна. Во-первых, признанный его автор Б. Эфрон с самого начала признавался, что он ничего принципиально нового не сделал. Его исходная статья (первая в сборнике [21]) называлась: "Бутстреп-методы: новый взгляд на методы складного ножа". Во вторых, сразу появились статьи и дискуссии в научных изданиях, публикации рекламного характера, и даже в научно-популярных журналах. Бурные обсуждения на конференциях, спешный выпуск книг. В 1980-е годы финансовая подоплека всей этой активности, связанная с выбиванием грантов на научную деятельность, содержание учебных заведений и т.п. была мало понятна отечественным специалистам.

В чем основная идея группы методов "размножения выборок", наиболее известным представителем которых является бутстреп?

Пусть дана выборка . В вероятностно-статистической теории предполагаем, что это - набор независимых одинаково распределенных случайных величин. Пусть эконометрика интересует некоторая статистика  Как изучить ее свойства? Подобными проблемами мы занимались на протяжении всей книги и знаем, насколько это непросто. Идея, которую предложил в 1949 г.М. Кенуй (это и есть "метод складного ножа") состоит в том, чтобы из одной выборки сделать много, исключая по одному наблюдению (и возвращая ранее исключенные). Перечислим выборки, которые получаются из исходной:

;

;

;

Всего n новых (размноженных) выборок объемом (n-1) каждая. По каждой из них можно рассчитать значение интересующей эконометрика статистики (с уменьшенным на 1 объемом выборки):

Полученные значения статистики позволяют судить о ее распределении и о характеристиках распределения - о математическом ожидании, медиане, квантилях, разбросе, среднем квадратическом отклонении. Значения статистики, построенные по размноженным подвыборкам, не являются независимыми, однако, как мы видели в главе 5 на примере ряда статистик, возникающих в методе наименьших квадратов и в кластер-анализе (при обсуждении возможности объединения двух кластеров), при росте объема выборки влияние зависимости может ослабевать и со значениями статистик типа можно обращаться как с независимыми случайными величинами.

Однако и без всякой вероятностно-статистической теории разброс величин дает наглядное представление о том, какую точность может дать рассматриваемая статистическая оценка.

Сам М. Кенуй и его последователи использовали размножение выборок в основном для построения оценок с уменьшенным смещением. А вот Б. Эфрон преложил новый способ размножения выборок, существенно использующий датчики псевдослучайных чисел. А именно, он предложил строить новые выборки, моделируя выборки из эмпирического распределения (см. определения в терминологическом Приложении 1 в конце книги). Другими словами, Б. Эфрон предложил взять конечную совокупность из n элементов исходной выборки  и с помощью датчика случайных чисел сформировать из нее любое число размноженных выборок. Процедура, хотя и нереальна без ЭВМ, проста с точки зрения программирования. По сравнению с описанной выше процедурой появляются новые недостатки - неизбежные совпадения элементов размноженных выборок и зависимость от качества датчиков псевдослучайных чисел (см. выше). Однако существует математическая теория, позволяющая (при некоторых предположениях и безграничном росте объема выборки) обосновать процедуры бутстрепа (см. сборник статей [21]).

Есть много способов развития идеи размножения выборок (см., например, статью [22]). Можно по исходной выборке построить эмпирическую функцию распределения, а затем каким-либо образом от кусочно-постоянной функции перейти к непрерывной функции распределения, например, соединив точки  отрезками прямых. Другой вариант - перейти к непрерывному распределению, построив непараметрическую оценку плотности. После этого рекомендуется брать размноженные выборки из этого непрерывного распределения (являющегося состоятельной оценкой исходного), непрерывность защитит от совпадений элементов в этих выборках.

Другой вариант построения размноженных выборок - более прямой. Исходные данные не могут быть определены совершенно точно и однозначно. Поэтому предлагается к исходным данным добавлять малые независимые одинаково распределенные погрешности. При таком подходе одновременно соединяем вместе идеи устойчивости (см. главу 10) и бутстрепа. При внимательном анализе многие идеи эконометрики тесно друг с другом связаны (см. статью [22]).

В каких случаях целесообразно применять бутстреп, а в каких - другие эконометрические методы? В период рекламной кампании встречались, в том числе в научно-популярных журналах, утверждения о том, что и для оценивания математического ожидания полезен бутстреп. Как показано в статье [22], это совершенно не так. При росте числа испытаний методом Монте-Карло бутстреп-оценка приближается к классической оценке - среднему арифметическому результатов наблюдений. Другими словами, бутстреп-оценка отличается от классической только шумом псевдослучайных чисел.

Аналогичной является ситуация и в ряде других случаев. Там, где эконометрическая теория хорошо развита, где найдены методы анализа данных, в том или иной смысле близкие к оптимальным, бутстрепу делать нечего. А вот в новых областях со сложными алгоритмами, свойства которых недостаточно ясны, он представляет собой ценный инструмент для изучения ситуации.

 

Эконометрика в контроллинге

 

Контроллеру и сотрудничающему с ним эконометрику нужна разнообразная экономическая и управленческая информация, не менее нужны удобные инструменты ее анализа. Следовательно, информационная поддержка контроллинга необходима для успешной работы контроллера. Без современных компьютерных инструментов анализа и управления, основанных на продвинутых эконометрических и экономико-математических методах и моделях, невозможно эффективно принимать управленческие решения. Недаром специалисты по контроллингу большое внимание уделяют проблемам создания, развития и применения компьютерных систем поддержки принятия решений. Высокие статистические технологии и эконометрика - неотъемлемые части любой современной системы поддержки принятия экономических и управленческих решений.

Важная часть эконометрики - применение высоких статистических технологий к анализу конкретных экономических данных. Такие исследования зачастую требуют дополнительной теоретической работы по "доводке" статистических технологий применительно к конкретной ситуации. Большое значение для контроллинга имеют не только общие методы, но и конкретные эконометрические модели, например, вероятностно-статистические модели тех или иных процедур экспертных оценок (глава 12) или эконометрики качества (глава 13), имитационные модели деятельности организации, прогнозирования в условиях риска (глава 14). И конечно, такие конкретные применения, как расчет и прогнозирование индекса инфляции. Сейчас уже многим специалистам ясно, что годовой бухгалтерский баланс предприятия может быть использован для оценки его финансово-хозяйственной деятельности только с привлечением данных об инфляции. Различные области экономической теории и практики в настоящее время еще далеко не согласованы. При оценке и сравнении инвестиционных проектов принято использовать такие характеристики, как чистая текущая стоимость, внутренняя норма доходности, основанные на введении в рассмотрение изменения стоимости денежной единицы во времени (это осуществляется с помощью дисконтирования). А при анализе финансово-хозяйственной деятельности организации на основе данных бухгалтерской отчетности изменение стоимости денежной единицы во времени по традиции не учитывают.

Специалисты по контроллингу должны быть вооружены современными средствами информационной поддержки, в том числе средствами на основе высоких статистических технологий и эконометрики. Очевидно, преподавание должно идти впереди практического применения. Ведь как применять то, чего не знаешь?

Статистические технологии применяют для анализа данных двух принципиально различных типов. Один из них - это результаты измерений (наблюдений, испытаний, анализов, опытов и др.) различных видов, например, результаты управленческого или бухгалтерского учета, данные Госкомстата и др. Короче, речь идет об объективной информации. Другой - это оценки экспертов, на основе своего опыта и интуиции делающих заключения относительно экономических явлений и процессов. Очевидно, это - субъективная информация. В стабильной экономической ситуации, позволяющей рассматривать длинные временные ряды тех или иных экономических величин, полученных в сопоставимых условиях, данные первого типа вполне адекватны. В быстро меняющихся условиях приходятся опираться на экспертные оценки. Такая новейшая часть эконометрики, как статистика нечисловых данных, была создана как ответ на запросы теории и практики экспертных оценок (см. главы 8 и 12).

Для решения каких экономических задач может быть полезна эконометрика? Практически для всех, использующих конкретную информацию о реальном мире. Только чисто абстрактные, отвлеченные от реальности исследования могут обойтись без нее. В частности, эконометрика необходима для прогнозирования, в том числе поведения потребителей, а потому и для планирования. Выборочные исследования, в том числе выборочный контроль, основаны на эконометрике. Но планирование и контроль - основа контроллинга. Поэтому эконометрика - важная составляющая инструментария контроллера, воплощенного в компьютерной системе поддержки принятия решений. Прежде всего оптимальных решений, которые предполагают опору на адекватные эконометрические модели. В производственном менеджменте это может означать, например, использование моделей экстремального планирования эксперимента (судя по накопленному опыту их практического использования, такие модели позволяют повысить выход полезного продукта на 30-300%).

Высокие статистические технологии в эконометрике предполагают адаптацию применяемых методов к меняющейся ситуации. Например, параметры прогностического индекса меняются вслед за изменением характеристик используемых для прогнозирования величин. Таков метод экспоненциального сглаживания. В соответствующем алгоритме расчетов значения временного ряда используются с весами. Веса уменьшаются по мере удаления в прошлое. Многие методы дискриминантного анализа основаны на применении обучающих выборок. Например, для построения рейтинга надежности банков можно с помощью экспертов составить две обучающие выборки - надежных и ненадежных банков. А затем с их помощью решать для вновь рассматриваемого банка, каков он - надежный или ненадежный, а также оценивать его надежность численно, т.е. вычислять значение рейтинга.

Один из способов построения адаптивных эконометрических моделей - нейронные сети (см., например, монографию [23]). При этом упор делается не на формулировку адаптивных алгоритмов анализа данных, а - в большинстве случаев - на построение виртуальной адаптивной структуры. Термин "виртуальная" означает, что "нейронная сеть" - это специализированная компьютерная программа, "нейроны" используются лишь при общении человека с компьютером. Методология нейронных сетей идет от идей кибернетики 1940-х годов. В компьютере создается модель мозга человека (весьма примитивная с точки зрения физиолога). Основа модели - весьма простые базовые элементы, называемые нейронами. Они соединены между собой, так что нейронные сети можно сравнить с хорошо знакомыми экономистам и инженерам блок-схемами. Каждый нейрон находится в одном из заданного множества состояний. Он получает импульсы от соседей по сети, изменяет свое состояние и сам рассылает импульсы. В результате состояние множества нейтронов изменяется, что соответствует проведению эконометрических вычислений.

Нейроны обычно объединяются в слои (как правило, два-три). Среди них выделяются входной и выходной слои. Перед началом решения той или иной задачи производится настройка. Во-первых, устанавливаются связи между нейронами, соответствующие решаемой задаче. Во-вторых, проводится обучение, т.е. через нейронную сеть пропускаются обучающие выборки, для элементов которых требуемые результаты расчетов известны. Затем параметры сети модифицируются так, чтобы получить максимальное соответствие выходных значений заданным величинам.

С точки зрения точности расчетов (и оптимальности в том или ином эконометрическом смысле) нейронные сети не имеют преимуществ перед другими адаптивными эконометрическими системами. Однако они более просты для восприятия. Надо отметить, что в эконометрике используются и модели, промежуточные между нейронными сетями и "обычными" системами регрессионных уравнений (одновременных и с лагами). Они тоже используют блок-схемы, как, например, универсальный метод моделирования связей экономических факторов ЖОК (этот метод описан в работе [24]).

Заметное место в математико-компьютерном обеспечении принятия решений в контроллинге занимают методы теории нечеткости (по-английски - fuzzy theory, причем термин fuzzy переводят на русский язык по-разному: нечеткий, размытый, расплывчатый, туманный, пушистый и др.). Начало современной теории нечеткости положено работой Л.А. Заде 1965г., хотя истоки прослеживаются со времен Древней Греции (об истории теории нечеткости см., например, книгу [12]). Это направление прикладной математики в последней трети ХХ в. получило бурное развитие. К настоящему времени по теории нечеткости опубликованы тысячи книг и статей, издается несколько международных журналов (половина - в Китае и Японии), постоянно проводятся международные конференции, выполнено достаточно много как теоретических, так и прикладных научных работ, практические приложения дали ощутимый технико-экономический эффект.

Основоположник рассматриваемого научного направления Лотфи А. Заде рассматривал теорию нечетких множеств как аппарат анализа и моделирования гуманистических систем, т.е. систем, в которых участвует человек. Его подход опирается на предпосылку о том, что элементами мышления человека являются не числа, а элементы некоторых нечетких множеств или классов объектов, для которых переход от "принадлежности" к "непринадлежности" не скачкообразен, а непрерывен. В настоящее время методы теории нечеткости используются почти во всех прикладных областях, в том числе при управлении качеством продукции и технологическими процессами.

Нечеткая математика и логика - мощный элегантный инструмент современной науки, который на Западе и на Востоке (в Японии, Китае, Корее) можно встретить в программном обеспечении сотен видов изделий - от игрушек и бытовых видеокамер до систем управления предприятиями. В России он был достаточно хорошо известен с начала 1970-х годов. Однако первая монография российского автора по теории нечеткости [12] была опубликована лишь в 1980 г. В дальнейшем проводившиеся раз в год всесоюзные конференции собирали около 100 участников - по мировым меркам немного. В настоящее время интерес к теории нечеткости среди экономистов и менеджеров растет.

При изложении теории нечетких множеств обычно не подчеркивается связь с вероятностными моделями. Между тем еще в середине 1970-х годов установлено (цикл соответствующих теорем приведен, в частности, в монографии [12], но это отнюдь не первая публикация), что теория нечеткости в определенном смысле сводится к теории случайных множеств, хотя эта связь и имеет, возможно, лишь теоретическое значение. В США подобные работы появились лет на пять позже.

Профессионалу в области контроллинга полезны многочисленные интеллектуальные инструменты анализа данных, относящиеся к высоким статистическим технологиям и эконометрике.

 


Литература

 

1. Корнилов С.Г. Накопление ошибки первого рода при повторной проверке статистических гипотез. Регламент повторных проверок. // Заводская лаборатория. 1996. Т.62. Nо.5. С.45-51.

2. Камень Ю.Э., Камень Я.Э., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез. // Заводская лаборатория. 1986. Т.52. No.12. С.55-57.

3. Налимов В.В. Применение математической статистики при анализе вещества. - М.: Физматгиз, 1960. - 430 с.

4. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат. // Заводская лаборатория. 1985. Т.51. No.1. С.60-62.

5. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. Изд.3-е. - М.: Наука, 1983. - 416 с.

6. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов. // Заводская лаборатория. 1992. Т.58. No.1. С.67-74.

7. Орлов А.И. Некоторые вероятностные вопросы теории классификации. – В сб.: Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.166-179.

8. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина "статистика" / Межфакультетская лаборатория статистических методов. Вып.37. - М.: Изд-во Московского государственного университета им. М.В. Ломоносова, 1972. - 46 с.

9. Орлов А.И. Что дает прикладная статистика народному хозяйству? // Вестник статистики. - 1986. - No.8. - С.52-56.

10. Орлов А.И. Сертификация и статистические методы (обобщающая статья). // Заводская лаборатория. - 1997. - Т.63. - No.З. - С.55-62.

11. Контроллинг в бизнесе. Методологические и практические основы построения контроллинга в организациях / А.М. Карминский, Н.И. Оленев, А.Г. Примак, С.Г. Фалько. - М.: Финансы и статистика, 1998. - 256 с.

12. Орлов А.И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980. - 64 с.

13. The teaching of statistics / Studies in mathematics education. Vol.7. - Paris, UNESCO, 1989. - 258 pp.

14. Ермаков С.М. Метод Монте-Карло и смежные вопросы. - М.: Наука, 1975. - 471 с.

15. Ермаков С.М., Михайлов Г.А. Статистическое моделирование. - М.: Наука, 1982. - 296 с.

16. Иванова И.М. Случайные числа и их применения. - М.: Финансы и статистика, 1984. - 111 с.

17. Ермаков С.М. О датчиках случайных чисел. // Заводская лаборатория. 1993. Т.59. No.7. С.48-50.

18. Неуймин Я.Г. Модели в науке и технике. История, теория, практика. - Л.: Наука, 1984. - 190 с.

19. Моисеев Н.Н. Математические задачи системного анализа. - М.: Наука, 1981. - 488 с.

20. Нейлор Т. Машинные имитационные эксперименты с моделями экономических систем. - М.: Мир, 1975. - 500 с.

21. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 263 с.

22. Орлов А.И. О реальных возможностях бутстрепа как статистического метода. // Заводская лаборатория. 1987. Т.53. No.10. С.82-85.

23. Бэстенс Д.Э., Берт В.М. ван дер, Вуд Д. Нейронные сети и финансовые рынки: принятие решений в торговых операциях. - М.: ТВП, 1998.

24. Орлов А.И., Жихарев В.Н., Кольцов В.Г. Новый эконометрический метод "ЖОК" оценки результатов взаимовлияний факторов в инженерном менеджменте // Проблемы технологии, управления и экономики / Под общей редакцией к. э. н. Панкова В.А. Ч.1. Краматорск: Донбасская государственная машиностроительная академия, 1999. С.87-89.

 


Дата добавления: 2019-07-15; просмотров: 140; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!