Основные предпосылки управления проектами 9 страница



Степень обоснованности и точности результатов зависит от количества, характера данных, метода их обработки, степени соответствия данных и методов друг другу. Количество данных, минимально необходимое для статистической обработки, в любом самом благоприятном случае не может быть менее 5—8 измерений каждого параметра, признака. Для получения надежных оценок часто необходимо не менее 30—40 измерений.

Если измерения, оценки охватывают не все изучаемые объекты, а только некоторую их часть, то есть используется выборочный метод, то минимальное число измерений должно быть установлено в соответствии с требуемым уровнем точности и доверительной вероятности, с которой полученные оценки могут быть распространены на всю генеральную совокупность объектов.

Большинство статистических методов и программ в статистических пакетах для обработки данных на компьютерах основываются на гипотезе о нормальном (гауссовском) законе распределения данных, используемых для обработки. Поэтому, как правило, первым этапом анализа данных должна быть их проверка на соответствие закону нормального распределения.

Задачи математической статистики.В теории вероятностей имеем дело с уже заданным распределением случайных величин. И на основании этого определялись интересующие характеристики случайных величин. На практике же мы не знаем, как распределена случайная величина. В этом случае на помощь приходит математическая статистика, которая изучает методы сбора, обработки и анализа данных, получаемых в результате наблюдений многократных случайных явлений.

К числу задач, решаемых методами математической статистики, относятся:

а) изучение большой совокупности объектов по небольшому их количеству, извлеченному из совокупности случайным образом (выборочный метод);

б) выяснение характера распределения, нахождение приближенных значений параметров распределения;

в) определение формы и силы связи между случайными величинами.

Выборочный метод.Генеральная совокупность — это общая группа предметов, подлежащих статистическому исследованию. Она может быть большой, поэтому физически невозможно исследовать всю генеральную совокупность. К тому же затраты на сбор данных во всей генеральной совокупности очень высоки, да и риск ошибки многократно возрастает. Кроме того, наблюдение может быть также связано с уничтожением исследуемого образца (например, проверка качества консервов).

Принимая во внимание все вышеперечисленные причины, из генеральной совокупности случайным образом отбирают небольшое количество предметов — выборку, после изучения, которой и делаются выводы о генеральной совокупности.

Выборка должна быть сформирована случайным образом (например, по таблице случайных чисел). Таблица случайных чисел представляет собой последовательность цифр в виде таблицы, в которой каждая из цифр от 0 до 9 встречается независимо друг от друга с вероятностью 0,1.

Также выборка должна быть репрезентативной, то есть давать правильное представление о генеральной совокупности. Примером выборки является любой социологический опрос.

Замечание. Ехсеl позволяет провести случайную выборку. Нужно воспользоваться надстройкой Пакет анализа. Сервис –> Анализ данных –> Выборка –> ОК. Появляется диалоговое окно, которое нужно заполнить. В графе Входной интервал указывается ссылка на ячейки, содержащие номера элементов генеральной совокупности. Флажок Метки устанавливается в активное состояние, если 1-я строка (1-й столбец) во входном интервале содержит заголовки. В поле Метод выборки активизировать способ отбора случайный. После этого в графе Число выборок указать объем выборки. Также нужно указать Параметры вывода. ОК. Появляется итоговое окно.

 

5.2. Статистические параметры ряда

 

Любой набор значений можно представить как временной ряд. где каждая последующее значение имеет во временном порядке более высокое порядковое значение. Такой ряд легко построить в виде графика, где горизонтальная ось несет временные значения, вертикальная ось значение измеряемого параметра. Точки соединяются друг с другом. Но в некоторых случаях такой график построить очень сложно, он может быть очень длинным (при большом количестве данных) и малоинформативным (при наличии небольшого количества данных со слишком большими (ураганные пробы) или слишком малыми значениями). Тогда строят частотный график, в котором данные суммируются по классам или в пакете MS Excel, их называют карманами.

Параметр, который позволяет все значения разделить на две части с одинаковой суммой отклонений, когда известны все значения и их вероятность называют математическим ожиданием. В случае для выборки значений и наличии нормального (гаусовского) закона распределения случайной величины можно вычислить среднее значение. Наиболее распространена формула средне арифметического значения:

 

                           (1);

где n – число измерений, xi – значение для каждого i –го испытания.

При известной частоте появления значения можно использовать формулу с частостью, или эмпирической вероятностью рi. В случае математического ожидания рi. является вероятность появления значения.

 

                        (2).

 

В случае если рi будут весовыми функциями, то формула вычисления средневзвешенного значения равна:

 

                        (3).

Для логнормального закона распределения случайной величины формулой среднего является среднегеометрическое значение:

 

                       (4).

 

При увеличении испытаний значение среднего приближается к математическому ожиданию.

Для оценки большого количества данных используют представление в виде частотного графика. Такой график позволяет кроме визуализации оценить такой показатель, как мода. Мода – значение, имеющее наибольшую вероятность. А график накопленной частоты рассчитать медианное значение. Медианной – называется значение, которое делит распределение на две равные части. Построить график и вычислить значения моды и медианны, можно с помощью следующих формул.

Количество классов можно рассчитать по упрощенной формуле:

 

                          (5),

где  п – количество измерений.

При дробном значении класса Nh округляется в большую сторону. Размер класса определяется следующим образом:

 

                 (6),

xmin, xmax  – минимальное и максимальное значение выборки.

Значение периодов классов рассчитываются формулами:

1: xmin . . . xmin+h

2: xmin+h. . . xmin+2h

 

Nh: xmin+(Nh-1) h . . . xmax                 (7).

 

Далее вычисляем количество значений выборки, попавших в данные периоды, можно вычислить эмпирическую вероятность, разделив значение каждого класса на общий объем выборки. На основе данных строим столбцовую диаграмму и определяем моду по формуле:

 

   (8),

 

где xMo – начало модального интервала,

fMo – частота модального интервала,

f-1 – предмодальная частота,

h – величина интервала,

f+1 – послемодальная частота.

Необходимо помнить, в выборке возможно несколько модальных значений. Для определения медианы строят график накопленной частоты, для этого рассчитывают значения накопленной частоты. Мода является квантилем с вероятностью 0,5. Квантиль – такое значение случайной вероятности, вероятность получить значение которого равняется p. Расчет значения медианного интервала равен:

 

                         (9),

 

где xMе – нижняя граница медианного интервала,

h – величина интервала,

fМе – частота медианного интервала,

F-1 – накопленная частота интервала предшествующий медианному.

Данные значения позволяют сделать вывод о типе распределения случайной величины. Так для примера нормальный закон распределения случайной величины не может иметь несколько значений модальных интервалов.

В статистике для оценки ряда данных второй наиболее часто используемой величиной после среднего является среднеквадратическое отклонение.

При центрировании начального момента случайной величины получаем моменты центрированной случайной величины, которые называются центральными моментами:

 

,

для эмпирических данных формула выглядит следующим образом:

 

.

Большое значение имеет второй центральный момент, или математическое ожидание квадрата отклонения случайной величины от математического ожидания. Характеризует степень разброса случайной величины от математического ожидания, называется дисперсией случайной величины.

 

 

Стандартное отклонение от среднего, величина, приведенная к размерности данных, может быть вычислена следующим образом:

 

.

Для эмпирической выборки с учетом смещения данных формула стандартного среднеквадратического отклонения будет иметь вид:

 

             (10).

 

Стандартные отклонения будут иметь единицы измерения такие же, как и у ряда данных, что накладывает определенные ограничения. Сравнение значений стандарта из разных выборок с отличными единицами измерения невозможно. Когда значение стандартного отклонение сравнивается без учета уровня среднего, может привести к неправильно интерпретации данных. Так, например, оценивая динамику продаж в двух магазинах в одном стандартное отклонение было 12.5 тыс. руб. в другом 12.1 тыс. руб., делают поспешные выводы, что продажи во втором магазине более устойчивы. Но если обратить внимание на значения средних, то для первого магазина оно равно 38.7 тыс. руб., а для второго 31.2 тыс. руб. Более высокий уровень среднего дохода более предпочтительный показатель, чем устойчивость работы, т.е. среднеквадратичное отклонение. Поэтому в экономике используют показатель относительного разброса, т.е. коэффициент вариации.

 

                  (11),

 

Иногда в экономической литературе встречается в абсолютном значении без процентного представления. Для интерпретации значения данного показателя принимаются следующие периоды: от 0% до 25% показатель является не высоким, такой разброс характерен для нормального закона распределения случайной величины. От 25% до 45% разброс является умеренным, для многих экономических показателей является вполне допустимым. При высоком разбросе коэффициент вариации принимает значения от 45% до 100%. В данном случае значения в выборке являются неоднородными или очень низкое значение среднего. В любом случае такой показатель должен быть внимательно изучен. В некоторых случаях экономические показатели могут принимать значения коэффициента вариации с очень высоким разбросом более 100%. Такие характеристики как динамика продаж дорогих товаров, пиковые продажи в праздничные дни, катастрофические явления на бирже и т.д.

Для выше приведенного примера коэффициент вариации в первом случае будет равен 32,3%, а во втором – 38,8%. Следовательно, можно сделать вывод, что динамика продаж в первом магазине более устойчива, чем во втором. Но, учитывая, что оба значения попали в область умеренного разброса, то при принятии решения необходимо больше внимания уделять другим факторам.

Параметр ошибки значения среднего можно вычислить по формуле:

 

                   (12).

 

Значение ошибки стандартного отклонения:

 

                   (13).

 

В основе этих показателей лежит нормальное распределение. Если Гаусовское распределение доказано, то можно определять число значений в выборке на основе измененной формулы 12, с добавлением коэффициента вероятности, т.е. критерия Стьюдента.

 

 ,


из этой формулы получаем число измерений при известном среднеквадратическом отклонении и среднего с заданной точностью. В итоге формула может выглядеть следующим образом:

 

 

Параметры коэффициента вероятности можно выбрать из таблицы 2.1 на основе заданной вероятности.

Для оценки распределения функции плотности вероятности используют такие показатели как асимметрия и характеристика крутости распределения (эксцесс).

Статистический анализ сводиться к определению принадлежности выборки к другой совокупной выборки или теоретической функции распределения случайной величины. Для проверки гипотез служат множество методов таких как: сравнения средних t–тест с помощью критерия Стьюдента, сравнение дисперсий – критерий Фишера, корреляционный анализ – сравнение значений двух динамических рядов, Хи – квадрат и т.д. Одним из методов определения отношения выборки к нормальному закона распределения случайной величины является сравнение среднего, моды и медианны, если их значения будут близки в рамках ошибки среднего, то можно утверждать, что распределение Гаусовское. Прологарифмировав ряд данных можно также определить логнормальное распределение случайной величины.

Нужно отметить существование методик, которые позволяют оценить выборку одновременно для различных законов распределения случайных величин. На рисунке 5.1 приведен график, который позволяет с помощью коэффициента вариации и асимметрии определить наиболее близкое для выборки закона распределение случайной величины. Необходимо помнить о представительности выборки, так для примера 35 с малым значением наблюдений асимметрия имеет с большое отрицательное значения. Для примера 36 точка приведена на рисунке 5.1.

Большую помощь исследователям в области обработки данных оказывают различные программные продукты, как специализированные – Statistika, MathCAD, Mat Lab и т.д., так и повсеместно распространенные, такие как электронные таблицы (MS Excel) и научные калькуляторы.

Пример 35. Оценить основные статистические показатели для малой выборки. Для примера были взяты оценки рейтингового агентства ежедневника "Эксперт" (www.raexpert.ru). Данные приведены в таблице 4.1

Таблица 5.1 – Оценка доли в общероссийском потенциале Иркутской области

Год Доля в общероссийском потенциале, %

xi-xcp

(xi-xcp)2

2006 1.561

-0.08433

0.007112

2005 1.365

-0.28033

0.078587

2004 1.55

-0.09533

0.009088

2003 1.59

-0.05533

0.003062

2002 1.62

-0.02533

0.000642

2001 1.72

0.074667

0.005575

2000 1.86

0.214667

0.046082

1999 1.74

0.094667

0.008962

1998 1.802

0.156667

0.024544

Сумма

14.808

0

0.183654

Для наглядности данные из таблицы 5.2 можно изобразить в виде диаграммы временного ряда на рисунке 5.2.

Рисунок 5.2 – Динамика доли в общероссийском потенциале Иркутской области. По данным www.raexpert.ru.

Проведем расчет основных статистических характеристик выборки, для упрощения можно воспользоваться пакетом анализа программы MS Excel.

Среднее                              1.645333333

Дисперсия выборки           0.02295675

Стандартное отклонение   0.151514851

Ошибка среднего               0.05050495

Коэффициент вариации              9.208763215%

Значения среднего и стандартного отклонения наносим на график, но если среднее наносится как абсолютное значение, то среднеквадратическое отклонение, как относительная лини к среднему: верхняя линия увеличивает среднее на значение стандарта, нижняя – уменьшает. Получаем коридор, в который данные будут попадать в случае нормального распределения с вероятностью 0,67. Низкое значение коэффициента вариации свидетельствует о стабильности данных выборки.

Пример 36. В случае, когда динамики изменения показателя нет или количество значений не позволяют построить график как в примере 35, Используют показатель частости и строят соответствующий график. За исходные данные был взят средневзвешенный индекс риска за 2005–2006 гг. (Россия=1), по данным www.raexpert.ru, восьмидесяти семи регионов России. Изначальная выборка из восьмидесяти восьми регионов была сокращена искусственным путем, используя методы фильтрации «ураганных» значений. В данном случае были убраны все регионы, которые имели значения больше трех стандартов. При среднем равном 1.21 и стандартном отклонении 0.049 все значения выше 2.68 были отброшены. В данном случае только один регион имел средневзвешенный индекс риска (4.541) – это Корякский автономный округ . Для данной выборке количество классов, рассчитанное по формуле 5, принимается равным 10. Основываясь на минимальном и максимальном значения усеченной выборки рассчитываем по формуле 6 размер интервала классов. В данном случае h = 0.1679. Далее, рассчитываем по формуле 7 интервалы периодов классов, вычисляем количество значений попавших в класс, частоту и накопленную частоту, все это заносим в таблицу 5.2.


Дата добавления: 2018-04-15; просмотров: 361; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!