Типичные ответы научных работников и преподавателей



Описание неопределенностей в теории принятия решений

 

     Одна из основных проблем в теории принятия решений – необходимость учета неопределенностей, оценки и управления рисками. Для описания неопределенностей и рисков применяют различные подходы.

     Чаще всего используется вероятностно-статистический подход. В разделе 2.4.1 кратко обсуждаются основные понятия и результаты в области теории вероятностей и статистики.  

     Изложение в настоящей главе доведено до современного уровня. Одним из наиболее интересных и продуктивных бурно развивающихся направлений теории принятия решений является анализ интервальных данных, согласно которому исходные данные – не числа, а интервалы. Таким образом, неопределенность величин, используемых в процессе принятия решения, моделируется путем замены конкретных численных значений на интервалы, в которых содержатся рассматриваемые величины. Введению в анализ интервальных данных посвящен раздел 2.4.2.

     Интервальные данные – это частный случай нечетких данных. В последнее время теория нечеткости все чаще используется в экономических исследованиях [1]. Нечеткость, расплывчатость, размытость понятий и величин – типичная черта многих задач принятия решений. Основам теории нечеткости посвящен раздел 2.4.3. Обратим внимание на систему принципиально важных утверждений, согласно которой теория нечеткости в определенном смысле сводится к теории случайных множеств – одной из частей вероятностно-статистической теории.

     Настоящая глава содержит введение в методы описания неопределенностей. За более подробной информацией необходимо обратиться к специальной литературе. Материалы главы 2.4 во многом основываются на результатах, приведенных в монографиях [2, 3].

 

Вероятностно-статистические методы описания

Неопределенностей

 

     Статистика – это наука о том, как обрабатывать данные. Статистические методы основаны на вероятностных моделях. Они активно применяются в технических исследованиях, экономике, теории и практике управления (менеджмента). А также в социологии, медицине, геологии, истории и т.д. С обработкой результатов наблюдений, измерений, испытаний, опытов, анализов имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях научных исследований.

     Развитие наукоемких технологий, как правило, основано на применении высоких статистических технологий организации и управления производством. Особенно активно они используются в высокотехнологичных отраслях промышленности. Без вероятностно-статистических методов немыслимы оценка и анализ риска, страхование, финансовая деятельность. Инженеры, менеджеры, экономисты, социологи, врачи, психологи, историки успешно применяют интеллектуальные инструменты принятия решений, основанные на вероятности и статистике.

     Статистические методы и модели и их база - теория вероятностей - активно развиваются во всем мире. Американская статистическая ассоциация насчитывает более двадцати тысяч членов, Королевское статистическое общество – более десяти тысяч. Статьи по вероятности и статистике постоянно публикуются более чем в пятистах научных журналах. В университетах США статистических факультетов больше, чем математических и физических. Восемь нобелевских премий получены эконометриками (специалистами по статистическим методам в экономике).

     Современная теория вероятностей основана на аксиоматике академика АН СССР А.Н. Колмогорова. Однако в нашей стране специалисты и научные работники, студенты и преподаватели пока еще недостаточно знакомы с последними достижениями в области вероятностно-статистических методов, хотя ссылки на них постоянно встречаются в научно-технической, деловой и учебной литературе.

     Вероятность и статистика нужны всем. Теория вероятностей и математическая статистика – основа вероятностно-статистических методов обработки данных. А данные мы обрабатываем и анализируем прежде всего для принятия решений. Чтобы воспользоваться современным математическим аппаратом, необходимо рассматриваемые задачи выразить в терминах вероятностно-статистических моделей.

     Применение конкретного вероятностно-статистического метода состоит из трех этапов:

     - переход от экономической, управленческой, технологической реальности к абстрактной математико-статистической схеме, т.е. построение вероятностной модели системы управления, технологического процесса, процедуры принятия решений, в частности по результатам статистического контроля, и т.п.

     - проведение расчетов и получение выводов чисто математическими средствами в рамках вероятностной модели;

     - интерпретация математико-статистических выводов применительно к реальной ситуации и принятие соответствующего решения (например, о соответствии или несоответствии качества продукции установленным требованиям, необходимости наладки технологического процесса и т.п.), в частности, заключения (о доле дефектных единиц продукции в партии, о конкретном виде законов распределения контролируемых параметров технологического процесса и др.).

     Математическая статистика использует понятия, методы и результаты теории вероятностей. Далее рассматриваем основные вопросы построения вероятностных моделей в экономических, управленческих, технологических и иных ситуациях. Подчеркнем, что для активного и правильного использования нормативно-технических и инструктивно-методических документов (инструкций, методик, правил, стандартов, справочников, учебников и т.п.) по вероятностно-статистическим методам нужны предварительные знания. Так, необходимо знать, при каких условиях следует применять тот или иной документ, какую исходную информацию необходимо иметь для его выбора и применения, какие решения должны быть приняты по результатам обработки данных и т.д.

     Примеры применения теории вероятностей и математической статистики. Рассмотрим несколько примеров, когда вероятностно-статистические модели являются хорошим инструментом для решения управленческих, производственных, экономических, народнохозяйственных задач. Так, например, в романе А.Н.Толстого «Хождение по мукам» (т.1) говорится: «Мастерская дает двадцать три процента брака, этой цифры вы и держитесь, - сказал Струков Ивану Ильичу».

     Как понимать эти слова в разговоре заводских менеджеров?  Одна единица продукции не может быть дефектна на 23%. Она может быть либо годной, либо дефектной. Наверно, Струков имел в виду, что в партии большого объема содержится примерно 23% дефектных единиц продукции. Тогда возникает вопрос, а что значит «примерно»? Пусть из 100 проверенных единиц продукции 30 окажутся дефектными, или из 1000 – 300, или из 100000 – 30000 и т.д., надо ли обвинять Струкова во лжи?

     Или другой пример. Монетка, которую используют как жребий, должна быть «симметричной». При ее бросании в среднем в половине случаев должен выпадать герб (орел), а в половине случаев – решетка (решка, цифра). Но что означает «в среднем»? Если провести много серий по 10 бросаний в каждой серии, то часто будут встречаться серии, в которых монетка 4 раза выпадает гербом. Для симметричной монеты это будет происходить в 20,5% серий. А если на 100000 бросаний окажется 40000 гербов, то можно ли считать монету симметричной? Процедура принятия решений строится на основе теории вероятностей и математической статистики.

     Пример может показаться недостаточно серьезным. Однако это не так. Жеребьевка широко используется при организации промышленных технико-экономических экспериментов. Например, при обработке результатов измерения показателя качества (момента трения) подшипников в зависимости от различных технологических факторов (влияния консервационной среды, методов подготовки подшипников перед измерением, влияния нагрузки подшипников в процессе измерения и т.п.). Допустим, необходимо сравнить качество подшипников в зависимости от результатов хранения их в разных консервационных маслах, т.е. в маслах состава А и В. При планировании такого эксперимента возникает вопрос, какие подшипники следует поместить в масло состава А, а какие – в масло состава В, но так, чтобы избежать субъективизма и обеспечить объективность принимаемого решения. Ответ на этот вопрос может быть получен с помощью жребия.

     Аналогичный пример можно привести и с контролем качества любой продукции. Чтобы решить, соответствует или не соответствует контролируемая партия продукции установленным требованиям, из нее отбирается выборка. По результатам контроля выборки делается заключение о всей партии. В этом случае очень важно избежать субъективизма при формировании выборки, т.е. необходимо, чтобы каждая единица продукции в контролируемой партии имела одинаковую вероятность быть отобранной в выборку. В производственных условиях отбор единиц продукции в выборку обычно осуществляют не с помощью жребия, а по специальным таблицам случайных чисел или с помощью компьютерных датчиков случайных чисел.

     Похожие проблемы обеспечения объективности сравнения возникают при сопоставлении различных схем организации производства, оплаты труда, при проведении тендеров и конкурсов, подбора кандидатов на вакантные должности и т.п. Всюду нужна жеребьевка или подобные ей процедуры.

     Пусть надо выявить наиболее сильную и вторую по силе команду при организации турнира по олимпийской системе (проигравший выбывает). Допустим, что более сильная команда всегда побеждает более слабую. Ясно, что самая сильная команда однозначно станет чемпионом. Вторая по силе команда выйдет в финал тогда и только тогда, когда до финала у нее не будет игр с будущим чемпионом. Если такая игра запланирована, то вторая по силе команда в финал не попадет. Тот, кто планирует турнир, может либо досрочно «выбить» вторую по силе команду из турнира, сведя ее в первой же встрече с лидером, либо обеспечить ей второе место, обеспечив встречи с более слабыми командами вплоть до финала. Чтобы избежать субъективизма, проводят жеребьевку. Для турнира из 8 команд вероятность того, что в финале встретятся две самые сильные команды, равна 4/7. Соответственно с вероятностью 3/7 вторая по силе команда покинет турнир досрочно.

     При любом измерении единиц продукции (с помощью штангенциркуля, микрометра, амперметра и т.п.) имеются погрешности. Чтобы выяснить, есть ли систематические погрешности, необходимо сделать многократные измерения единицы продукции, характеристики которой известны (например, стандартного образца). При этом следует помнить, что кроме систематической погрешности присутствует и случайная погрешность.

     Поэтому встает вопрос, как по результатам измерений узнать, есть ли систематическая погрешность. Если отмечать только, является ли полученная при очередном измерении погрешность положительной или отрицательной, то эту задачу можно свести к уже рассмотренной. Действительно, сопоставим измерение с бросанием монеты, положительную погрешность – с выпадением герба, отрицательную – решетки (нулевая погрешность при достаточном числе делений шкалы практически никогда не встречается). Тогда проверка отсутствия систематической погрешности эквивалентна проверке симметричности монеты.

     Итак, задача проверки отсутствия систематической погрешности сведена к задаче проверки симметричности монеты. Проведенные рассуждения приводят к так называемому «критерию знаков» в математической статистике.

     При статистическом регулировании технологических процессов на основе методов математической статистики разрабатываются правила и планы статистического контроля процессов, направленные на своевременное обнаружение разладки технологических процессов и принятия мер к их наладке и предотвращению выпуска продукции, не соответствующей установленным требованиям. Эти меры нацелены на сокращение издержек производства и потерь от поставки некачественных единиц продукции. При статистическом приемочном контроле на основе методов математической статистики разрабатываются планы контроля качества путем анализа выборок из партий продукции. Сложность заключается в том, чтобы уметь правильно строить вероятностно-статистические модели принятия решений. В математической статистике для этого разработаны вероятностные модели и методы проверки гипотез, в частности, гипотез о том, что доля дефектных единиц продукции равна определенному числу р0, например, р0 = 0,23 (вспомните слова Струкова из романа А.Н.Толстого).

     Задачи оценивания. В ряде управленческих, производственных, экономических, народнохозяйственных ситуаций возникают задачи другого типа – задачи оценки характеристик и параметров распределений вероятностей.

     Рассмотрим пример. Пусть на контроль поступила партия из N электроламп. Из этой партии случайным образом отобрана выборка объемом n электроламп. Возникает ряд естественных вопросов. Как по результатам испытаний элементов выборки определить средний срок службы электроламп, с какой точностью можно оценить эту характеристику? Как изменится точность, если взять выборку большего объема? При каком числе часов Т можно гарантировать, что не менее 90% электроламп прослужат Т и более часов?

     Предположим, что при испытании выборки объемом n электроламп дефектными оказались Х электроламп. Какие границы можно указать для числа D дефектных электроламп в партии, для уровня дефектности D / N и т.п.?

     Или при статистическом анализе точности и стабильности технологических процессов надлежит оценить такие показатели качества, как среднее значение контролируемого параметра и степень его разброса в рассматриваемом процессе. Согласно теории вероятностей в качестве среднего значения случайной величины целесообразно использовать ее математическое ожидание, а в качестве статистической характеристики разброса – дисперсию, среднее квадратическое отклонение или коэффициент вариации.  Возникают вопросы: как оценить эти статистические характеристики по выборочным данным, с какой точностью это удается сделать?

     Аналогичных примеров можно привести очень много. Здесь важно было показать, как теория вероятностей и математическая статистика могут быть использованы в инженерных, экономических и управленческих задачах.

     Современное представление о математической статистике. Под математической статистикой понимают «раздел математики, посвященный математическим методам сбора, систематизации, обработки и интерпретации статистических данных, а также использованию их для научных или практических выводов. Правила и процедуры математической статистики опираются на теорию вероятностей, позволяющую оценить точность и надежность выводов, получаемых в каждой задаче на основании имеющегося статистического материала» [4, с.326]. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

     По типу решаемых задач математическая статистика обычно делится на три раздела: описание данных, оценивание и проверка гипотез.

     По виду обрабатываемых статистических данных математическая статистика делится на четыре направления:

     - одномерная статистика (статистика случайных величин), в которой результат наблюдения описывается действительным числом;

     - многомерный статистический анализ, где результат наблюдения над объектом описывается несколькими числами (вектором);

     - статистика случайных процессов и временных рядов, где результат наблюдения – функция;

     - статистика объектов нечисловой природы, в которой результат наблюдения имеет нечисловую природу, например, является множеством (геометрической фигурой), упорядочением или получен в результате измерения по качественному признаку.

     Исторически первой появились некоторые области статистики объектов нечисловой природы (в частности, задачи оценивания доли брака и проверки гипотез о ней; первоначально говорилось об извлечении разноцветных шаров из урны) и одномерная статистика. Математический аппарат для них проще, поэтому на их примере обычно демонстрируют основные идеи математической статистики.

     Лишь те методы обработки данных, т.е. математической статистики, являются доказательными, которые опираются на вероятностные модели соответствующих реальных явлений и процессов. Речь идет о моделях поведения потребителей, возникновения рисков, функционирования технологического оборудования, получения результатов эксперимента, течения заболевания и т.п. Вероятностную модель реального явления следует считать построенной, если рассматриваемые величины и связи между ними выражены в терминах теории вероятностей. Соответствие вероятностной модели реальности, т.е. ее адекватность, обосновывают, в частности, с помощью статистических методов проверки гипотез.

     Невероятностные методы обработки данных являются поисковыми, их можно использовать лишь при предварительном анализе данных, так как они не дают возможности оценить точность и надежность выводов, полученных на основании ограниченного статистического материала.

     Вероятностные и статистические методы применимы всюду, где удается построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции).

     В конкретных областях применений используются как вероятностно-статистические методы широкого применения, так и специфические. Например, в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др.

     Широко применяются такие прикладные вероятностно-статистические дисциплины, как теория надежности и теория массового обслуживания. Содержание первой из них ясно из названия, вторая занимается изучением систем типа телефонной станции, на которую в случайные моменты времени поступают вызовы - требования абонентов, набирающих номера на своих телефонных аппаратах. Длительность обслуживания этих требований, т.е. длительность разговоров, также моделируется случайными величинами. Большой вклад в развитие этих дисциплин внесли член-корреспондент АН СССР А.Я. Хинчин (1894-1959), академик АН УССР Б.В.Гнеденко (1912-1995) и другие отечественные ученые.

     Коротко об истории математической статистики. Математическая статистика как наука начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы.

     В конце XIX в. – начале ХХ в. крупный вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (1857-1936) и Р.А.Фишер (1890-1962). В частности, Пирсон разработал критерий «хи-квадрат» проверки статистических гипотез, а Фишер – дисперсионный анализ, теорию планирования эксперимента, метод максимального правдоподобия оценки параметров.

     В 30-е годы ХХ в. поляк Ежи Нейман (1894-1977) и англичанин Э.Пирсон развили общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член-корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902-1950) построил теорию последовательного статистического анализа.

     Математическая статистика бурно развивается и в настоящее время. Так, за последние 40 лет можно выделить четыре принципиально новых направления исследований [3]:

     - разработка и внедрение математических методов планирования экспериментов;

     - развитие статистики объектов нечисловой природы как самостоятельного направления в прикладной математической статистике;

     - развитие статистических методов, устойчивых по отношению к малым отклонениям от используемой вероятностной модели;

     - широкое развертывание работ по созданию компьютерных пакетов программ, предназначенных для проведения статистического анализа данных.

     Вероятностно-статистические методы и оптимизация. Идея оптимизации пронизывает современную прикладную математическую статистику и иные статистические методы. А именно, методы планирования экспериментов, статистического приемочного контроля, статистического регулирования технологических процессов и др. С другой стороны, оптимизационные постановки в теории принятия решений, например, прикладная теория оптимизации качества продукции и требований стандартов, предусматривают широкое использование вероятностно-статистических методов, прежде всего прикладной математической статистики.

     В производственном менеджменте, в частности, при оптимизации качества продукции и требований стандартов особенно важно применять статистические методы на начальном этапе жизненного цикла продукции, т.е. на этапе научно-исследовательской подготовки опытно-конструкторских разработок (разработка перспективных требований к продукции, аванпроекта, технического задания на опытно-конструкторскую разработку). Это объясняется ограниченностью информации, доступной на начальном этапе жизненного цикла продукции, и необходимостью прогнозирования технических возможностей и экономической ситуации на будущее. Статистические методы должны применяться на всех этапах решения задачи оптимизации – при шкалировании переменных, разработке математических моделей функционирования изделий и систем, проведении технических и экономических экспериментов и т.д.

     В задачах оптимизации, в том числе оптимизации качества продукции и требований стандартов, используют все области статистики. А именно, статистику случайных величин, многомерный статистический анализ, статистику случайных процессов и временных рядов, статистику объектов нечисловой природы. Разработаны рекомендации по выбору статистического метода для анализа конкретных данных [5].

 

Анализ интервальных данных

     Перспективная и быстро развивающаяся область  исследований последних десятилетий - анализ интервальных данных. Речь идет о развитии методов прикладной математической статистики в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Приведем основные идеи весьма перспективного для вероятностно-статистических методов и моделей принятия решений асимптотического направления в статистике интервальных данных.

     В настоящее время признается необходимым изучение устойчивости (робастности) оценок параметров к малым отклонениям исходных данных и предпосылок модели. Однако популярная среди теоретиков модель засорения (модель Тьюки-Хьюбера) представляется не вполне адекватной. Эта модель нацелена на изучение влияния больших "выбросов". Поскольку любые реальные измерения лежат в некотором фиксированном диапазоне, а именно, заданном в техническом паспорте средства измерения, то зачастую выбросы не могут быть слишком большими. Поэтому представляются полезными иные, более общие схемы устойчивости, в частности, введенные в [2], в которых, например, учитываются отклонения распределений результатов наблюдений от предположений модели.

     В одной из таких схем изучается влияние интервальности исходных данных на статистические выводы. Необходимость такого изучения стала очевидной следующим образом. В государственных стандартах СССР по прикладной статистике в обязательном порядке давалось справочное приложение "Примеры применения правил стандарта". При разработке ГОСТ 11.011-83 [6] были переданы для анализа реальные данные о наработке резцов до предельного состояния (в часах). Оказалось, что все эти данные представляли собой либо целые числа, либо полуцелые (т.е. после умножения на 2 становящиеся целыми). Ясно, что исходная длительность наработок искажена. Необходимо учесть в статистических процедурах наличие такого искажения исходных данных. Как это сделать?

     Первое, что приходит в голову - модель группировки данных, согласно которой для истинного значения Х проводится замена на ближайшее число из множества {0,5n, n=1,2,3,...}. Однако эту модель целесообразно подвергнуть сомнению, а также рассмотреть иные модели. Так, возможно, что Х надо приводить к ближайшему сверху элементу указанного множества - если проверка качества поставленных на испытание резцов проводилась раз в полчаса. Другой вариант: если расстояния от Х до двух ближайших элементов множества {0,5n, n=1,2,3,...} примерно равны, то естественно ввести рандомизацию при выборе заменяющего числа, и т.д. 

     Целесообразно построить новую математико-статистическую модель, согласно которой результаты наблюдений - не числа, а интервалы. Например, если в таблице приведено значение 53,5, то это значит, что реальное значение - какое-то число от 53,0 до 54,0, т.е. какое-то число в интервале [53,5 - 0,5; 53,5 + 0,5], где 0,5 - максимально возможная погрешность. Принимая эту модель, мы попадаем в новую научную область - статистику интервальных данных. Статистика интервальных данных идейно связана с интервальной математикой, в которой в роли чисел выступают интервалы (см., например, монографию [7]). Это направление математики является дальнейшим развитием известных правил приближенных вычислений, посвященных выражению погрешностей суммы, разности, произведения, частного через погрешности тех чисел, над которыми осуществляются перечисленные операции.

     В интервальной математике сумма двух интервальных чисел [a,b] и [c,d] имеет вид [a,b] + [c , d] = [a+c, b+d], а разность определяется по формуле [a , b] - [c , d] = [a - d, b - c]. Для положительных a , b, c, d произведение определяется формулой [a , b] * [c , d] = [ac, bd], а частное имеет вид [a , b] / [c , d] = [a / d , b / c]. Эти формулы получены при решении соответствующих оптимизационных задач. Пусть х лежит в отрезке [a,b], а у – в отрезке [c,d]. Каково минимальное и максимальное значение для х+у? Очевидно, a+c и b+d соответственно. Минимальные и максимальные значения для х-у, ху, х/у задают нижние и верхние границы для интервальных чисел, задающих результаты арифметических операций. А от арифметических операций можно перейти ко всем остальным математическим алгоритмам. Так строится интервальная математика. К настоящему времени удалось решить, в частности, ряд задач теории интервальных дифференциальных уравнений, в которых коэффициенты, начальные условия и решения описываются с помощью интервалов.

     В настоящем разделе обсуждаем асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. В частности, еще в начале 1980-х годов с помощью такой асимптотики были сформулированы правила выбора метода оценивания в ГОСТ 11.011-83 [6].

     Разработана общая схема исследования (приведена в [3]), включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения и характеристик аддитивных статистик, при проверке гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова. Изучено асимптотическое поведение оценок метода моментов и оценок максимального правдоподобия (а также более общих - оценок минимального контраста), проведено асимптотическое сравнение этих методов в случае интервальных данных, найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия.

Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов. В частности, изучено влияние погрешностей измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на показатель качества классификации.  

     В области асимптотической математической статистики интервальных данных мы имеем мировой приоритет. Очевидно, со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков.

     Многие из утверждений статистики интервальных данных весьма отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок; средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии оценки, рассчитанной согласно классической теории, и некоторого положительного числа (равного квадрату т.н. нотны - максимально возможного отклонения значения статистики из-за погрешностей исходных данных) - в результате метод моментов оказывается иногда точнее метода максимального правдоподобия; нецелесообразно увеличивать объем выборки сверх некоторого предела (называемого рациональным объемом выборки) - вопреки классической теории, согласно которой чем больше объем выборки, тем точнее выводы.

     Развитие идей статистики интервальных данных продолжается уже в течение более чем 25 лет, и еще много чего надо сделать! Большое значение статистики интервальных данных для современной прикладной статистики обосновано в [3].

     Одна из ведущих научных школ в области анализа интервальных данных - это школа проф. А.П. Вощинина, активно работающая с конца 70-х годов. В частности, изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности [8-11].

     Рассматриваемое ниже направление отличается нацеленностью на асимптотические результаты, полученные при больших объемах выборок и малых погрешностях измерений, поэтому оно и названо асимптотической статистикой интервальных данных.

     Сформулируем сначала основные идеи асимптотической математической статистики интервальных данных. Следует сразу подчеркнуть, что основные идеи достаточно просты, в то время как их проработка в конкретных ситуациях зачастую оказывается достаточно трудоемкой.

     Пусть существо реального явления описывается выборкой x1, x2 , ..., xn. В вероятностной теории математической статистики, из которой мы исходим, выборка - это набор n независимых в совокупности одинаково распределенных случайных величин. Однако беспристрастный и тщательный анализ подавляющего большинства реальных задач показывает, что статистику известна отнюдь не выборка x1, x2, ..., xn, а величины

y j = xj +  ε j , j = 1, 2, ... , n ,

где  некоторые погрешности измерений, наблюдений, анализов, опытов, исследований (например, инструментальные ошибки).

     Одна из причин появления погрешностей - запись результатов наблюдений с конечным числом значащих цифр. Дело в том, что для случайных величин с непрерывными функциями распределения событие, состоящее в попадании хотя бы одного элемента выборки в множество рациональных чисел, согласно правилам теории вероятностей имеет вероятность 0, а такими событиями в теории вероятностей принято пренебрегать. Поэтому при рассуждениях о выборках из обычно используемых распределений (нормального, логарифмически нормального, экспоненциального, равномерного, гамма - распределений, распределения Вейбулла-Гнеденко и т.п.) приходится принимать, что эти распределения имеют элементы исходной выборки x1, x2 , ..., xn, в то время как статистической обработке доступны лишь искаженные значения y j = xj +  ε j .

     Введем обозначения

x = (x1, x2 , ..., xn), y = (y1, y2 , ..., yn), ε = (ε1, ε2, ... , εn).

     Пусть статистические выводы основываются на статистике  используемой для оценивания параметров и характеристик распределения, проверки гипотез и решения иных статистических задач. Принципиально важная для статистики интервальных данных идея такова: СТАТИСТИК ЗНАЕТ ТОЛЬКО f(y), НО НЕ f(x).

     Очевидно, в статистических выводах необходимо отразить различие между f(y) и f(x). Одним из двух основных понятий статистики интервальных данных является понятие нотны.

     Определение. Величину максимально возможного (по абсолютной величине) отклонения, вызванного погрешностями наблюдений , известного статистику значения f(y) от истинного значения f(x), т.е.

Nf(x) = sup |f(y) - f(x)|,

где супремум берется по множеству возможных значений вектора погрешностей  (см. ниже), будем называть НОТНОЙ .

     Если функция f имеет частные производные второго порядка, а ограничения на погрешности имеют вид

      (2.1)

причем мало, то приращение функции f с точностью до бесконечно малых более высокого порядка описывается главным линейным членом, т.е.

     Чтобы получить асимптотическое (при ) выражение для нотны, достаточно найти максимум и минимум линейной функции (главного линейного члена) на кубе, заданном неравенствами (2.1).

     Легко видеть, что максимум достигается, если положить

а минимум, отличающийся от максимума только знаком, достигается при . Следовательно, нотна с точностью до бесконечно малых более высокого порядка имеет вид

Это выражение назовем асимптотической нотной.

     Условие (2.1) означает, что исходные данные представляются статистику в виде интервалов  (отсюда и название этого научного направления). Ограничения на погрешности могут задаваться разными способами - кроме абсолютных ошибок используются относительные или иные показатели различия между x и y.

     Если задана не предельная абсолютная погрешность , а предельная относительная погрешность , т.е. ограничения на погрешности вошедших в выборку результатов измерений имеют вид

то аналогичным образом получаем, что нотна с точностью до бесконечно малых более высокого порядка, т.е. асимптотическая нотна, имеет вид

     При практическом использовании рассматриваемой концепции необходимо провести в расчетных формулах тотальную замену символов x на символы y. В каждом конкретном случае удается показать, что в силу малости погрешностей разность  является бесконечно малой более высокого порядка сравнительно с  или .

     Основные результаты в вероятностной модели. В классической вероятностной модели элементы исходной выборки x1, x2 , ..., xn рассматриваются как независимые одинаково распределенные случайные величины. Как правило, существует некоторая константа C > 0 такая, что в смысле сходимости по вероятности

            (2.2)

Соотношение (2.2) доказывается отдельно для каждой конкретной задачи.

     При использовании классических статистических методов в большинстве случаев используемая статистика f(x) является асимптотически нормальной. Это означает, что существуют константы а и  такие, что

где Ф(х) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. При этом обычно оказывается, что

и

а потому в классической прикладной математической статистике средний квадрат ошибки статистической оценки равен

с точностью до членов более высокого порядка.

     В статистике интервальных данных ситуация совсем иная - обычно можно доказать, что средний квадрат ошибки равен

             (2.3)

     Из соотношения (2.3) можно сделать ряд важных следствий. Прежде всего, отметим, что правая часть этого равенства, в отличие от правой части соответствующего классического равенства, не стремится к 0 при безграничном возрастании объема выборки. Она остается больше некоторого положительного числа, а именно, квадрата нотны. Следовательно, статистика f(x) не является состоятельной оценкой параметра a. Более того, состоятельных оценок вообще не существует.

     Пусть доверительным интервалом для параметра a, соответствующим заданной доверительной вероятности , в классической математической статистике является интервал  В статистике интервальных данных аналогичный доверительный интервал является более широким. Он имеет вид Таким образом, его длина увеличивается на две нотны. Следовательно, при увеличении объема выборки длина доверительного интервала не может стать меньше, чем  (см. формулу (2.2)).

     В статистике интервальных данных методы оценивания параметров имеют другие свойства по сравнению с классической математической статистикой. Так, при больших объемах выборок метод моментов может быть заметно лучше, чем метод максимального правдоподобия (т.е. иметь меньший средний квадрат ошибки - см. формулу (2.3)), в то время как в классической математической статистике второй из названных методов всегда не хуже первого. Именно так обстоит дело при оценивании параметров гамма-распределения [6].

     Рациональный объем выборки. Анализ формулы (2.3) показывает, что в отличие от классической математической статистики нецелесообразно безгранично увеличивать объем выборки, поскольку средний квадрат ошибки остается всегда большим квадрата нотны. Поэтому представляется полезным ввести понятие "рационального объема выборки" n rat , при достижении которого продолжать наблюдения нецелесообразно.

     Как установить "рациональный объем выборки"? Можно воспользоваться идеей "принципа уравнивания погрешностей", выдвинутой в монографии [2]. Речь идет о том, что вклад погрешностей различной природы в общую погрешность должен быть примерно одинаков. Этот принцип дает возможность выбирать необходимую точность оценивания тех или иных характеристик в тех случаях, когда это зависит от исследователя. В статистике интервальных данных в соответствии с "принципом уравнивания погрешностей" предлагается определять рациональный объем выборки n rat из условия равенства двух слагаемых - метрологической составляющей, связанной с нотной, и статистической составляющей - в среднем квадрате ошибки (2.3), т.е. из условия

     Для практического использования выражения для рационального объема выборки неизвестные теоретические характеристики необходимо заменить их оценками. Это делается в каждой конкретной задаче по-своему.

     Исследовательскую программу в области статистики интервальных данных можно "в двух словах" сформулировать так: для любого алгоритма анализа данных (алгоритма прикладной статистики) необходимо вычислить нотну и рациональный объем выборки. Или иные величины из того же понятийного ряда, возникающие в многомерном случае, при наличии нескольких выборок и при иных обобщениях описываемой здесь простейшей схемы. Затем проследить влияние погрешностей исходных данных на точность оценивания, доверительные интервалы, значения статистик критериев при проверке гипотез, уровни значимости и другие характеристики статистических выводов. Очевидно, классическая математическая статистика является частью статистики интервальных данных, выделяемой условием = 0.

 

Нечеткие множества

     Пусть A - некоторое множество. Подмножество B множества A характеризуется своей характеристической функцией

                 (2.4)

     Что такое нечеткое множество? Обычно говорят, что нечеткое подмножество C множества A характеризуется своей функцией принадлежности  Значение функции принадлежности в точке х показывает степень принадлежности этой точки нечеткому множеству. Нечеткое множество описывает неопределенность, соответствующую точке х – она одновременно и входит, и не входит в нечеткое множество С. За вхождение -  шансов, за второе – (1- ) шансов.

     Если функция принадлежности  имеет вид (2.4) при некотором B, то C есть обычное (четкое) подмножество A. Таким образом, теория нечетких множеств является не менее общей математической дисциплиной, чем обычная теория множеств, поскольку обычные множества – частный случай нечетких.

     Соответственно можно ожидать, что теория нечеткости как целое обобщает классическую математику. Однако еще в 1970-х годах установлено [2, 3], что теория нечеткости в определенном смысле сводится к теории случайных множеств и тем самым является частью классической математики. Другими словами, по степени общности обычная математика и нечеткая математика эквивалентны. Однако для практического применения в теории принятия решений описание и анализ неопределенностей с помощью теории нечетких множеств весьма плодотворны.

     Обычное подмножество можно было бы отождествить с его характеристической функцией. Этого математики не делают, поскольку для задания функции (в ныне принятом подходе) необходимо сначала задать множество. Нечеткое же подмножество с формальной точки зрения можно отождествить с его функцией принадлежности. Однако термин "нечеткое подмножество" предпочтительнее при построении математических моделей реальных явлений.

     Теория нечеткости является обобщением интервальной математики. Действительно, функция принадлежности

 задает интервальную неопределенность – про рассматриваемую величину известно лишь, что она лежит в заданном интервале [a,b]. Тем самым описание неопределенностей с помощью нечетких множеств является более общим, чем с помощью интервалов.

     Начало современной теории нечеткости положено работой 1965 г. американского ученого азербайджанского происхождения Л.А. Заде. К настоящему времени по этой теории опубликованы тысячи книг и статей, издается несколько международных журналов, выполнено достаточно много как теоретических, так и прикладных работ. Первая книга российского автора по теории нечеткости вышла в 1980 г. [12].

     Сам Л.А. Заде рассматривал теорию нечетких множеств как аппарат анализа и моделирования гуманистических систем, т.е. систем, в которых участвует человек. Его подход опирается на предпосылку о том, что элементами мышления человека являются не числа, а элементы некоторых нечетких множеств или классов объектов, для которых переход от "принадлежности" к "непринадлежности" не скачкообразен, а непрерывен. В настоящее время методы теории нечеткости используются почти во всех прикладных областях, в том числе при управлении предприятием, качеством продукции и технологическими процессами.

     Л.А. Заде использовал термин "fuzzy set" (нечеткое множество). На русский язык термин "fuzzy" переводили как нечеткий, размытый, расплывчатый, и даже как пушистый и туманный.  

     Аппарат теории нечеткости громоздок. В качестве примера дадим определения теоретико-множественных операций над нечеткими множествами. Пусть C и D- два нечетких подмножества A с функциями принадлежности  и  соответственно. Пересечением , произведением CD, объединением , отрицанием , суммой C + D называются нечеткие подмножества A с функциями принадлежности

соответственно.

     Как уже отмечалось, теория нечетких множеств в определенном смысле сводится к теории вероятностей, а именно, к теории случайных множеств. Соответствующий цикл теорем приведен в [2, 3]. Однако при решении прикладных задач вероятностно-статистические методы и методы теории нечеткости обычно рассматриваются как различные.

     Для знакомства со спецификой нечетких множеств рассмотрим некоторые их свойства. 

     В дальнейшем считаем, что все рассматриваемые нечеткие множества являются подмножествами одного и того же множества Y.

     Законы де Моргана для нечетких множеств. Как известно, законами де Моргана называются следующие тождества алгебры множеств

(2.5)

     Теорема 1. Для нечетких множеств справедливы тождества

(2.6)

       (2.7)

     Доказательство теоремы 1 состоит в непосредственной проверке справедливости соотношений (2.6) и (2.7) путем вычисления значений функций принадлежности участвующих в этих соотношениях нечетких множеств на основе определений, данных выше.

     Тождества (2.6) и (2.7) назовем законами де Моргана для нечетких множеств. В отличие от классического случая соотношений (2.5), они состоят из четырех тождеств, одна пара которых относится к операциям объединения и пересечения, а вторая - к операциям произведения и суммы. Как и соотношения (2.5) в алгебре множеств, законы де Моргана в алгебре нечетких множеств позволяют преобразовывать выражения и формулы, в состав которых входят операции отрицания.

     Дистрибутивный закон для нечетких множеств. Некоторые свойства операций над множествами не выполнены для нечетких множеств. Так,  за исключением случая, когда А - "четкое" множество (т.е. функция принадлежности принимает только значения 0 и 1).

     Верен ли дистрибутивный закон для нечетких множеств? В литературе иногда расплывчато утверждается, что "не всегда". Внесем полную ясность.

     Теорема 2. Для любых нечетких множеств А, В и С

(2.8)

В то же время равенство

      (2.9)

справедливо тогда и только тогда, когда при всех  

     Доказательство. Фиксируем произвольный элемент . Для сокращения записи обозначим  Для доказательства тождества (2.8) необходимо показать, что

   (2.10)

Рассмотрим различные упорядочения трех чисел a, b, c. Пусть сначала  Тогда левая часть соотношения (2.10) есть  а правая  т.е. равенство (2.10) справедливо.

     Пусть  Тогда в соотношении (2.10) слева стоит  а справа  т.е. соотношение (2.10) опять является равенством.

     Если  то в соотношении (2.10) слева стоит  а справа  т.е. обе части снова совпадают.

     Три остальные упорядочения чисел a, b, c разбирать нет необходимости, поскольку в соотношение (2.10) числа b и c входят симметрично. Тождество (2.8) доказано.

     Второе утверждение теоремы 2 вытекает из того, что в соответствии с определениями операций над нечеткими множествами 

и

Эти два выражения совпадают тогда и только тогда, когда  что и требовалось доказать.

     Определение 1. Носителем нечеткого множества А называется совокупность всех точек , для которых  

     Следствие теоремы 2. Если носители нечетких множеств В и С совпадают с У, то равенство(2.9) имеет место тогда и только тогда, когда А - "четкое" (т.е. обычное, классическое, не нечеткое) множество.

     Доказательство. По условию  при всех . Тогда из теоремы 2 следует, что  т.е.  или , что и означает, что А - четкое множество.

     Пример описания неопределенности с помощью нечеткого множества. Понятие «богатый» часто используется при обсуждении социально-экономических проблем, в том числе и в связи с подготовкой и принятием решений. Однако очевидно, что разные лица вкладывают в это понятие различное содержание. Сотрудники Института высоких статистических технологий и эконометрики провели в 1996 г. социологическое исследование представления различных слоёв населения о понятии "богатый человек".

     Мини-анкета опроса выглядела так:

     1. При каком месячном доходе (в млн. руб. на одного человека) Вы считали бы себя богатым человеком?

     2. Оценив свой сегодняшний доход, к какой из категорий Вы себя относите:

     а) богатые;                             

     б) достаток выше среднего;           

     в) достаток ниже среднего;

     г) бедные;

     д) за чертой бедности?

(В дальнейшем вместо полного наименования категорий будем оперировать буквами, например "в" - категория, "б" - категория и т.д.)

     3. Ваша профессия, специальность.

     Всего было опрошено 74 человека, из них 40 - научные работники и преподаватели, 34 человека - не занятых в сфере науки и образования, в том числе 5 рабочих и 5 пенсионеров. Из всех опрошенных только один (!) считает себя богатым. Несколько типичных ответов научных работников и преподавателей приведено в табл. 2.17, а аналогичные сведения для работников коммерческой сферы – в табл.2.18.

 

Таблица 2.17

Типичные ответы научных работников и преподавателей

Ответы на вопрос 3

Ответы на вопрос 1, млн. руб./чел.

Ответы на вопрос 2

Пол

 

Кандидат наук

1

д

ж

 

Преподаватель

1

в

ж

 
 

Доцент

1

б

ж

 

Учитель

10

в

м

 

Старший. научный сотрудник

10

д

м

 

Инженер-физик

24

д

ж

 

Программист

25

г

м

 

Научный работник

45

г

м

                 

 

Таблица 2.18


Дата добавления: 2021-01-21; просмотров: 35; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!