Ковариация. Парный коэффициент корреляции .



 

    Пусть  - выборка парных наблюдений объема . Случайные величины x и y имеют нормальное распределение. Для них рассчитаем средние значения  и стандартные отклонения  и . Вспомним, при этом, что дисперсии  и рассчитываются как центрированные суммы квадратов, деленные на число наблюдений без единицы ( 2.6). Подобно показателю изменчивости одной величины введем показатель совместной изменчивости двух величин x и y, называемый корреляционным моментом. Под корреляционным моментом понимается математическое ожидание произведения отклонений случайных величин x и y от их центров распределения:

,                 (8.2)

где m ( x ) и m ( y ) математические ожидания случайных величин x и y. Оценкой математических ожиданий являются выборочные средние значения  и . Несмещенной оценкой корреляционного момента является ковариация. Чтобы получить ковариацию рассчитаем сначала центрированную сумму смешанных произведений, а затем дадим оценку ковариации:

           (8.3)

    Ковариация характеризует степень совместной изменчивости величин x и y, подобно дисперсии, характеризующей степень изменчивости одной случайной величины. Коэффициент корреляции может быть рассчитан как отношение ковариации к произведению стандартных отклонений:

                             (8.4)

    Более простая, но менее наглядная процедура расчета коэффициента корреляции сводится к вычислению нецентрированной суммы смешанных произведений и среднего смешанного произведения. После этого вычисляется коэффициент корреляции:

,                   (8.5)

    По существу коэффициент корреляции является стандартизированной оценкой ковариации. Если значения  и  привести предварительно к стандартному виду:

 ;  ,                      (8.6)

то:                  (8.7)

  Полученное значение выборочного (по результатам исследования выборки) коэффициента корреляции является точечной оценкой его истинного значения. Распределение выборочного коэффициента корреляции описывается особым законом и асимптотически стремится к нормальному распределению при увеличении длины выборки. Введем новую случайную величину:

                                (8.8)

Эта величина имеет распределение Стьюдента и может быть использована для проверки нулевой гипотезы:  при альтернативе . Нулевая гипотеза отвергается, если , где  - табличное критическое значение критерия Стьюдента для уровня значимости  и  степеней свободы, n - число пар наблюдений в выборке.

    Для  стандартная ошибка коэффициента корреляции может быть рассчитана по следующей формуле:

, а величина t - критерия: .     (8.9)

Если рассчитанный критерий превысит табличное значение критерия Стьюдента для заданного уровня значимости  и n - 2 степеней свободы, нулевая гипотеза о равенстве коэффициента корреляции нулю отвергается.

    Стандартная ошибка и установленное по таблицам критическое значение ta,n-2 позволяют  дать интервальную оценку коэффициента корреляции:

,           (8.10)

 где  - истинное значение коэффициента корреляции.

Величина   ( 8.11) имеет r распределение:

              (8.12)

с n- 2 степенями свободы. Критические значения h могут быть представлены в виде таблицы (таблица 8.1) и использованы для проверки нулевой гипотезы. Нулевая гипотеза отвергается, если рассчитанная величина h превысит hкрит. для заданного уровня значимости .

Таблица 8.1

Критические значения  для оценки значимости

коэффициента линейной корреляции    

n

n

  0.05 0.01 0.001   0.05 0.01 0.001
10 1.90 2.29 2.62 25 1.941 2.475 3.026
11 1.90 2.32 2.68 26 1.941 2.479 3.037
12 1.91 2.35 2.73 27 1.942 2.483 3.047
13 1.92 2.37 2.77 28 1.943 2.487 3.056
14 1.92 2.39 2.81 29 1.943 2.490 3.064
15 1.92 2.40 2.85 30 1.944 2.492 3.071
16 1.93 2.41 2.87 35 1.947 2.505 3.102
17 1.93 2.42 2.90 40 1.949 2.514 3.126
18 1.93 2.43 2.92 45 1.950 2.521 3.145
19 1.93 2.44 2.94 50 1.951 2.527 3.161
20 1.94 2.45 2.96 60 1.953 2.535 3.183
21 1.94 2.45 2.98 70 1.954 2.541 3.198
22 1.94 2.46 2.99 80 1.955 2.546 3.209
23 1.94 2.47 3.00 90 1.956 2.550 3.219
24 1.94 2.47 3.02 100 1.960 2.576 3.291
        ¥ 1.960 2.576 3.291

 

    При n > 100 критические значения h можно вычислять по формуле:

           (8.13)

Для интервальной оценки r и проверки нулевой гипотезы можно воспользоваться преобразованием

.                           (8.14)

Случайная величина z при величине выборки n > 10 имеет приблизительно нормальное распределение. Стандартная ошибка этой величины . Можно рассчитать критерий Стьюдента: . Критическое значение t находится для заданного уровня значимости и n - 3 степеней свободы. Нулевая гипотеза отвергается, если . . Доверительные границы для z рассчитываются по формулам:

,                      (8.15)

Доверительные границы для коэффициента корреляции находят обратным преобразованием z в r , либо исходя из формулы ( 8.14 ), либо по специальным таблицам.

    В качестве примера рассмотрим результаты определения плотности и магнитных свойств габбро на Тереховском железорудном месторождении Восточного Саяна.

Среднее значение плотности составило 2885 кг/см3, магнитной восприимчивости - 3240. Вынесем результаты измерений на диаграмму (рис. 8.3) и проведем параллельно осям координат линии, соответствующие средним значениям плотности и магнитной восприимчивости. Количество точек, попадающих в первый и третий квадранты (смотри рис. 8.2) n1 = 13, во второй и четвертый квадранты n2 = 5. Оценим примерно коэффициент корреляции (8.1): r2= (13 - 5)/(13 + 5) = 0.44.

 

Таблица 8.2

Плотность и магнитная восприимчивость габбро

 

Плотность в кг/м3 магнитная восприимчивость Плотность в кг/м3 магнитная восприимчивость
2970 5470 2880 9380
2940 2840 2960 5030
2940 1410 2720 1055
3040 9970 2740 254
3010 4400 2990 10500
2910 2260 2720 202
2880 288 2920 2315
2880 330 2880 1875
2820 594 2730 140

 

Рис. 8.3. Зависимость между плотностью и магнитной восприимчивостью габбро Тереховского месторождения.

 

Более точный расчет проведем в табличной форме.

Таблица 8.4

Расчет коэффициента корреляции между плотностью ( d ) и магнитной восприимчивостью (  ) габбро

2970 5470 7225

4974635

189583,1
2940 2840 3025

159689

-21978,6
2940 1410 3025

3347477

-100629
3040 9970 24025

45298135

1043210
3010 4400 15625

1346502

145048,6
2910 2260 625

959637,9

-24490,3
2880 288 25

8712008

14758,06
2880 330 25

8465837

14548,06
2820 594 4225

6999258

171964,7
2880 9380 25

37704376

-30701,9
2960 5030 5625

3205492

134279,2
2720 1055 27225

4772526

360460,8
2740 254 21025

8913874

432913,6
2990 10500 11025

52713247

762340,8
2720 202 27225

9227081

501205,8
2920 2315 1225

854905,7

-32361,4
2880 1875 25

1862163

6823,056
2730 140 24025

9607589

480439,7
(2.2 ) (2.2 ) (2.6)

(2.6 )

(8.3 )
2885 3239,6 10308,8

12301437

238083,2

В скобках указаны ссылки

( 2.7)

(2.7 )

( 8.4)

на формулы

101,5324

3507,34

0,668569
           

        

    Рассчитаем h-критерий для оценки значимости коэффициента корреляции (8.11): . Критическое значение h для уровня значимости  и 18 пар наблюдений (таблица 8.1) равно 2.43. Следовательно нулевая гипотеза о равенстве коэффициента корреляции нулю должна быть отвергнута с доверительной вероятностью 0.99. Такой же результат получается при расчете t - критерия (8.8):  при , где k - число степеней свободы, равное

n - 2 ( таблица 4.2 ).

Увеличение плотности габбро связано с увеличением содержания в них богатых железом темноокрашенных минералов - пироксенов и амфиболов, имеющих повышенную плотность. Одновременно в породах возрастает содержание магнетита, чем и объясняется положительная корреляционная зависимость между плотностью и магнитной восприимчивостью.

Линейная регрессия.

        

Коэффициент корреляции является показателем линейной зависимости между переменными. Он позволяет описать линейную зависимость в виде уравнения регрессии типа . Статистический характер зависимости между переменными позволяет построить две прямых регрессии. Прямые регрессии y на x  и  на  имеют вид:

и .    (8.16)

Это в общем случае две разных прямых, пересекающихся в точке с координатами  (рис. 8.4). Если коэффициент корреляции равен единице прямые регрессии совпадут и будет иметь место функциональная зависимость y от x, когда каждому значению x отвечает одно значение y.

 

 

Рис.8.4. Линии регрессии FeO на SiO 2 ( 1) и SiO 2 на FeO (2) для габбро-диоритовых интрузий Восточного Саяна.

 

Запишем уравнения регрессии в виде:

   и ,            (8.17)

где ,  , , ,

 r - эмпирический коэффициент корреляции, Sx  и Sy - стандартные отклонения случайных величин x и y.,  - их средние значения. Коэффициенты  и  называют, соответственно, эмпирическими коэффициентами регрессии y на x и x на y. Они имеют тот же знак, что и эмпирический коэффициент корреляции.

Коэффициентам уравнения регрессии может быть дана доверительная интервальная оценка. В уравнении  доверительными границами для  и  служат

 и  , (8.18)

 где  - квантиль распределения Стьюдента для уровня значимости  и n -2 степеней свободы, n - длина выборки.

Для удобных фиксированных значений  могут быть определены доверительные границы для теоретической прямой регрессии, называемые границами надежности или фидуциальными границами. Если  - оценка y в точке x 0, то доверительные границы для теоретической прямой регрессии в этой точке будут равны:

,                (8.19)

где  - значение y, рассчитанное по уравнению регрессии для точки .Доверительный интервал расширяется по мере удаления от среднего значения x. Поэтому экстраполяция прямой регрессии далеко за пределы исходного интервала значений аргумента должна быть осторожной (рис.8.5).

    Воспользуемся результатами исследования зависимости между плотностью и магнитной восприимчивостью габбро (таблица 8.4) и рассчитаем уравнение

регрессии: , ,

Рис. 8.5. Доверительные границы линейной регрессии SiO 2 на FeO для габбро-диоритовой интрузии Восточных Саян.

 

Найдем (таблица 4.2) квантиль распределения Стьюдента для доверительной вероятности P = 0.95 и 18-2 степени свободы  и рассчитаем доверительные границы для коэффициентов  и b1:

 

Теоретические значения коэффициентов уравнения регрессии, таким образом, с вероятностью 0.95 располагаются в интервалах: , .

 

Корреляционное отношение

 

    В случае нелинейной зависимости между переменными коэффициент корреляции не может служить оценкой этой зависимости. При нелинейной зависимости рассчитывается корреляционное отношение, способное выявить как нелинейные так и линейные зависимости, хотя и с меньшей информативностью.

Пусть имеется ряд парных наблюдений: (XY)1, (XY)2, (XY)3, ..., (XY)n. Найдем средние, максимальные и минимальные значения  Xмин, Xмакс, Yмин, Yмакс. Будем рассматривать X как независимую случайную величину. Интервал изменчивости величины X., то есть Xмакс - Xмин разделим на k  интервалов и сгруппируем парные значения (XY)i по этим интервалам. В итоге получим k групп парных наблюдений, не пересекающихся по значениям X.

     

...............................

,          (8.20)

где ni - количество наблюдений в группе.  Тогда общее количество наблюдений будет n = n 1 + n 2 + ...+ nk. Для  каждой группы парных наблюдений, выделенных по значениям X, рассчитаем средние значения величины Y и получим ряд из k средних значений: .

 Корреляционное отношение представляет собой корень квадратный из отношения межгрупповой изменчивости величины y к её общей изменчивости во всей выборке.

Общая изменчивость величины у:

 или ,   (8.21)

где Yi значения зависимой случайной величины из общего вариационного ряда парных наблюдений.

Межгрупповая изменчивость:

                  (8.22)

Корреляционное отношение:

                              (8.23)

 

    Корреляционное отношение представляет собой меру концентрации парных наблюдений около кривой регрессии. Оно может менять свое значение от 0 до 1. Значение корреляционного отношения будет зависеть от количества интервалов, на которые делится общий интервал разброса независимой переменной. При выборе числа интервалов можно использовать те же правила, что и при построении гистограммы. Обычно считается, что число интервалов должно быть не менее 7-8. При очень большом числе интервалов информативность корреляционного отношения теряется. Если число интервалов будет приближаться к числу наблюдений, то корреляционное отношение будет приближаться к единице.

    Значимость корреляционного отношения может быть проверена с помощью критерия Фишера. Нулевая гипотеза при этом формулируется как . Критерий Фишера рассчитывается по формуле:

.                 (8.24)

Если рассчитанная величина превысит критическое значение F критерия для заданного уровня значимости  и для k -1 и n - k степеней свободы (таблица 5.2), то нулевая гипотеза должна быть отклонена.

    Корреляционное отношение по абсолютной величине обычно больше коэффициента линейной корреляции. Разность  является мерой оценки линейности связи . Для такой оценки рассчитывается критерий:

.                   (8.25)

Нулевая гипотеза предполагает линейную зависимость между случайными величинами x и y. Полученную величину V сравниваем с критическим значением критерия Фишера. Если V окажется меньше , то нет оснований отказываться от линейной модели связи величин x и y.

    Примером расчета корреляционного отношения могут служить результаты опробования на железо и серу руд одного из скарновых магнетитовых месторождений (табл.8.5)

Таблица 8.5

Содержание в магнетитовых рудах железа и серы (в %)

S Fe S Fe S Fe
0.25 21.0 1.28 32.5 1.17 42.0
0.45 21.1 1.7 32.3 1.29 42.0
0.6 22.0 1.16 34.0 0.9 43.0
0.55 23.5 1.52 34.0 1.33 43.4
0.75 24.0 0.82 35.5 1.08 43.9
0.98 23.7 1.1 35.6 1.2 43.8
0.62 25.0 1.28 35.8 0.92 44.9
0.88 26.0 1.4 36.7 1.38 45.0
0.77 26.7 1.77 36.4 1.12 45.2
0.9 27.5 1.78 38.0 0.7 45.7
0.82 25.0 1.28 37.9 0.83 46.0
0.72 31.3 1.13 38.2 1.0 46.5
1.08 27.8 1.4 39.0 0.78 47.2
0.9 29.2 2.0 30.6 0.9 47.7
1.05 29.4 1.23 40.0 1.04 48.6
1.13 30.0 1.4 40.0 1.8 35.0
1.1 31.2 0.8 41.5 1.2 34.0
1.26 31.4 1.38 32.5 1.7 36.5
1.75 38.2 1.19 39.0 1.1 40.0
1.05 39.0 1.18 37.0 0.9 30.0

Средние содержания

1.11 35.50

Минимальные значения

0.25 21.0

Максимальные значения

2.0 48.6

Суммы квадратов отклонений

от среднего (общая изменчивость)

7.42 3350.05

Коэффициент корреляции

0.29

Для проверки нулевой гипотезы рассчитаем t критерий (8.8): . Полученный результат несколько превосходит t критическое для уровня значимости 0.05 и 58 степеней свободы, равное 2.0. Следовательно, с вероятностью 0.95 нулевая гипотеза о равенстве коэффициента корреляции нулю должна быть опровергнута.

Общий интервал изменчивости содержаний железа 21.0 - 48.6 % разделим на шесть равных интервалов и подсчитаем число попаданий парных наблюдений в эти интервалы. Результаты этого подсчета приведены в таблице 8.6.

 

Таблица 8.6

Распределение парных наблюдений по группам,

различающимся по содержанию железа

 

группы

  1 2 3 4 5 6
        1.18    
        1.05    
        1.19    
        1.75    
        1.70    
содер-      1.20 1.80  1.10  
жание      1.38 1.40  1.20 1.04
серы  0.82 0.90  2.00 1.13  1.08 0.90
   0.62 1.13  1.52 1.28  1.33 0.78
   0.98 1.05  1.16 1.78  0.90 1.00
   0.75 0.90  1.70 1.77  1.29 0.83
   0.55 1.08  1.28 1.40  1.17 0.70
   0.60 0.90  1.26 1.28  0.80 1.12
   0.45 0.77  1.10 1.10  1.40 1.38
   0.25 0.88  0.72 0.82  1.23 0.92
nj 8 8 10 15 10 9
Fe cpeд. 23.16  28.32 32.38  37.19 41.96  46.31
S сред. Групп  0.63 0.95  1.33 1.38  1.15 0.96

межгрупповая изменчивость содержания серы

3.82

 

Рассчитаем согласно ( 8.22 ) межгрупповую изменчивость содержания серы: SSs=8(0.63-1.11)2 + 8(0.95-1.11)2 +10(1.33-1.11)2 +15(1.38-1.11)2 + 10(1.15-1.11)2 + 9(0.96-1.11)2 = 3.82. Корреляционное отношение .

Рассчитаем F и V критерии (8.24, 8.25 ):

  

    Рассчитанные критерии намного превосходят свои критические значения для уровня значимости 0.01, 5 или 4 и 54 степеней свободы (t критическое равно 3.2 - 3.8). Обе нулевые гипотезы о равенстве корреляционного отношения нулю и линейности связи сера - железо опровергаются.

 

 

Рис. 8.6. Зависимость между содержанием серы и железа в рудах магнетитового месторождения. Кривая регрессии построена по шести групповым средним содержания серы.

 

Действительно, как показывают наблюдения, содержания серы в виде пирита и пирротина в бедных рудах растут с ростом содержания железа, достигая максимальных значений в умеренно богатых рудах среди скарнов. В богатых рудах происходит некоторое снижение содержания сульфидов. Выявленная нелинейная зависимость железо-сера хорошо отображается на графике, построенном по групповым средним содержания серы (рис.8.6).        

Увеличение числа групп приводит к некоторому увеличению корреляционного отношения и заметному усложнению вида регрессионной кривой.

Непараметрическая корреляция

 

    Условием успешного применения коэффициента линейной корреляции является нормальное распределение совокупностей случайных величин. В случае неясного или заведомо отличающегося от нормального распределения, при ограниченном числе данных, а так же при исследовании величин, измеренных в порядковой шкале, лучше использовать ранговые коэффициенты корреляции. Наиболее известным среди них является ранговый коэффициент корреляции Спирмена r ( s).

    Пусть x 1 y 1 , x 2 y 2 , x 3 y 3 , ..., xnyn - парные наблюдения двух признаков. Рассмотрим каждый из признаков отдельно, расположив все его значения в неубывающий ряд. Присвоим каждому из значений x и y в составе соответствующего ряда его порядковый номер (ранг). Если значения двух и более соседних случайных величин в составе упорядоченного ряда совпадают, то им присваивается «средний ранг». В итоге значения переменных в парных наблюдениях xiyi можно заменить их рангами:

R ( x 1 ) R ( y 1 ), R ( x 2 ) R ( y 2 ), R ( x 3 ) R ( y 3 ), ..., R ( xn ) R ( yn ).

Для каждой пары рассчитаем квадрат разности рангов и все n квадратов разностей сложим. Общая формула для расчета коэффициента корреляции Спирмена будет иметь вид:

                  (8.26)

    Нулевая гипотеза формулируется как  при альтернативах . Критерий двусторонний.

    Критические значения критерия Спирмена находятся для уровня значимости  и длины выборки n, как  по специальным таблицам (табл. 8.7).

Таблица 8.7

Критические значения рангового коэффициента

 корреляции Спирмена для проверки гипотезы r(s) = 0[ ]

n

уровень значимости

  0.05 0.025 0.01 0.005 0.001
4 0.800        
5 0.800 0.900 0.900    
6 0.7714 0.8286 0.8857 0.9429  
7 0.6786 0.7450 0.8571 0.8929 0.9213
8 0.6190 0.7143 0.8095 0.8571 0.9286
9 0.5833 0.6833 0.7667 0.8167 0.9000
10 0.5515 0.6364 0.7333 0.7818 0.8667
11 0.5273 0.6091 0.7000 0.7455 0.8364
12 0.4965 0.5804 0.6713 0.7273 0.8182
13 0.4780 0.5549 0.6429 0.6978 0.7912
14 0.4593 0.5314 0.6220 0.6747 0.7670
15 0.4429 0.5179 0.6000 0.6336 0.7464
16 0.4265 0.5000 0.5824 0.6324 0.7265
17 0.4118 0.4853 0.5637 0.6152 0.7083
18 0.3994 0.4716 0.5480 0.5975 0.6904
19 0.3895 0.4579 0.5333 0.5825 0.6737
20 0.3789 0.4451 0.5203 0.5684 0.6586
21 0.3688 0.4351 0.5078 0.5545 0.6455
22 0.3597 0.4241 0.4963 0.5426 0.6318
23 0.3518 0.4150 0.4852 0.5306 0.6186
24 0.3435 0.4061 0.4748 0.5200 0.6070
25 0.3362 0.3987 0.4654 0.5100 0.5962
26 0.3299 0.3894 0.4564 0.5002 0.5856
27 0.3236 0.3822 0.4481 0.4915 0.5757
28 0.3175 0.3749 0.4401 0.4828 0.5660
29 0.3113 0.3685 0.4320 0.4744 0.5567
30 0.3059 0.3620 0.4251 0.4665 0.5479

 

Для больших n можно использовать упрощенную таблицу критических значений ( табл. 8.8 ).

 

Таблица 8.8

Критические значения рангового коэффициента

 корреляции Спирмена для больших выборок [ ].

N

уровень значим.

N

уровень значим.

  0.025 0.005   0.025 0.005
32 0.35 0.45 55 0.26 0.34
34 0.34 0.44 60 0.25 0.32
36 0.33 0.42 65 0.24 0.31
38 0.32 0.41 70 0.23 0.30
40 0.31 0.40 75 0.22 0.29
42 0.30 0.39 80 0.22 0.28
44 0.30 0.38 90 0.20 0.27
46 0.29 0.38 100 0.20 0.25
48 0.28 0.37 120 0.18 0.23
50 0.28 0.36 500 0.09 0.12

 

Если рассчитанное значение коэффициента корреляции превысит по абсолютной величине его критическое значение, гипотеза о равенстве коэффициента корреляции нулю опровергается.

    При наличии нескольких пар с одинаковыми значениями рангов коэффициент ранговой корреляции вычисляется по формуле:

, (8.27)

где  и  - поправки на повторяющиеся содержания величин x и y. Поправки вычисляются следующим образом:

 , где m - количество групп x с повторяющимися значениями, lt - количество данных с повторяющимися значениями в группе.

    Для приближенной оценки критического значения рангового коэффициента корреляции можно использовать величину: , где z ( P ) - значение обратной функции (квантиля) нормального распределения для доверительной вероятности P (таблица ).

Можно также использовать критерий Стьюдента:

                          (8.28)

Критическое значение находится для уровня значимости  и n-2 степеней свободы.

    Для иллюстрации применения рангового коэффициента корреляции рассмотрим результаты химических анализов разновозрастных глинистых толщ Русской платформы

на  Al 2 O 3 и TiO 2 (таблица 8.9).

 

 

Таблица 8.9

Расчет рангового коэффициента корреляции между Al 2 O 3 и TiO 2 ( %) в глинистых толщах Русской платформы.

 

Al2O3 TiO2 R(Al2O3) R(TiO2) [R(Al2O3)- R(TiO2)]2
18.34 0.88 15 15 0
17.83 0.84 14 12.5 2.25
11.82 0.64 3 5 4
12.62 0.60 5 3 4
15.00 0.87 8 14 36
17.24 0.84 13 12.5 0.25
11.45 0.57 1 1 0
15.21 0.80 9 11 4
14.72 0.71 7 7 0
16.55 0.77 12 10 4
16.00 0.74 10 8 4
16.11 0.75 11 9 4
11.59 0.75 2 2 0
13.54 0.67 6 6 0
12.16 0.62 4 4 0

сумма

62.5

 

0.89

 

Полученное значение превышает табличное, равное 0.75 при уровне значимости 0.002 и 15 наблюдениях. Титан и алюминий в глинах обнаруживают отчетливую положительную связь.

Оценка критического значения через квантили стандартного нормального распределения (таблица 5.1) для уровня значимости 0.002 дает близкий результат:

.

 

Таблицы сопряженности

 

    Таблицы сопряженности являются эффективным средством исследования зависимостей между качественными признаками, которые можно рассматривать как результаты измерения в номинальной шкале. В частном случае любое свойство может быть оценено по признаку есть оно или нет. Для оценки связи между двумя такими свойствами можно использовать двумерные таблицы,

    Пусть некоторый объект описывается двумя свойствами. Свойство X принимает q значений, а свойство Y - p значений, измеренных в номинальной шкале. Например, кварц может быть молочно-белым, серым, бесцветным и дымчатым (свойство X)  и встречаться на некотором месторождении в составе мономинеральных кварцевых жил, в ассоциации с сульфидами, в ассоциации с карбонатами (свойство Y).

Обозначим градации первого свойства X 1 , X 2 , X 3 ,..., Xq. Градации второго свойства Y 1 , Y 2 , Y 3 , ..., Yp. Появление кварца белого цвета и кварца дымчатого есть несовместные события. Появление образцов кварца всех обозначенных цветов составляет полную группу событий этого типа, также как появление образцов кварца из разных минеральных ассоциаций. Если использовать принятые выше обозначения свойств, как обозначения соответствующих событий, то можно записать:

P(X1) + P(X2) + P(X3) +.... + P(Xq) = 1

P(Y1) + P(Y2) + P(Y3) +.... + P(Yp) = 1    (8.29)

    При исследовании объекта (в данном примере - кварца) случайным образом выбираются его варианты, для каждого из которых оцениваются оба свойства. Таким образом формируется вариационный ряд, характеризующий исследуемую нами генеральную совокупность объектов:

Q ( XY )1, Q ( XY )2, Q ( XY )3, ...., Q ( XY ) N.        (8.30)

    Каждый вариант этого ряда есть объект с комбинацией свойств X и Y.

Объекты с совместным проявлением двух градаций названных свойств образуют некоторый класс-ячейку в составе двумерной таблицы размером p q ( таблица 8.10).

 

Таблица 8.10

Таблица сопряженности свойств X  и Y

XY Y1 Y2 Y3 ..... Yp X
X1 [X1Y1] [X1Y2] [X1Y3] ..... [X1Yp] [X1]
X2 [X2Y1] [X2Y2] [X2Y3] ..... [X2Yp] [X2]
X3 [X3Y1] [X3Y2] [X3Y3] ..... [X3Yp] [X3]
..... ..... ..... ..... ..... ..... .....
Xq [XqY1] [XqY2] [XqY3] ..... [XqYp] [Xq]
Y [Y1] [Y2] [Y3] ..... [Yp] N

В квадратных скобках в таблице 8.10 показано количество (частоты) проявлений парных свойств XiYj и индивидуальных свойств Xi и Yj в составе вариационного ряда, с общим количеством вариаций равном N.

    Примем относительные частоты проявления парного (XiYj) или индивидуальных (Xi) или (Yj) событий за их вероятности. Тогда:

P ( XiYj ) = [ XiYj ]/ N ; P ( Xi ) = [ Xi ]/ N ; P ( Yj ) = [ Yj ]/ N. (8.31)

В дополнение к выражениям ( 8.30) можно написать:

Р( X 1 Y 1 ) + Р( X 1 Y 2 ) + .... + Р( XiYj ) + ... + Р (XqYp) = 1. (8.32)

То есть все парные события образуют полную группу событий, характеризующую исследуемую генеральную совокупность.

    Для каждой ячейки - класса таблицы 8.10 можно рассчитать условные вероятности событий Xi и Yj  при условии, если другое событие уже произошло:

P ( Xi | Yj ) =  [ XiYj ]/ [ Yj ]; P ( Yj | Xi ) = [ XiYj ]/ [ Xi ] (8.33)

    При отсутствии связи между свойствами X и Y, условные вероятности событий Xi и Yj , будут равны общим вероятностям  этих событий.

P ( Xi | Yj ) = P ( Xi ) и P ( Yj | Xi ) = P ( Yj ).        (8.34)

Заменим вероятности относительными частотами :

[ XiYj ]/ [ Yj ] = [ Xi ]/ N         [ XiYj ]/ [ Xi ] = [ Yj ]/ N. (8.35)

В примере с кварцем записанные выражения можно интерпретировать для конкретной ячейки следующим образом: доля кварца гидротермального генезиса среди всех находок кварца серого цвета равна доле всех кварцев гидротермального генезиса среди всех (N ) находок кварца или доля кварца серого цвета среди всех находок гидротермального кварца равна доле кварца серого цвета среди всех (N) находок кварца.

    Показанные соотношения позволяют рассчитать теоретические частоты парных событий XiYj , если известна полная совокупность событий Xi и Yj . Согласно (8.35) можем записать { XiYj } = [ Yj ] · [ Xi ]/ N , где { XiYj } - теоретическая частота парного события XiYj . Таким образом можно составить новую таблицу сопряженности, где частоты в ячейках соответствуют условию независимости признаков.

 Распределение экспериментальных и теоретических частот можно сравнить с помощью критерия согласия  (раздел 6.2 ):

              (8.36)

Нулевая гипотеза для таблиц сопряженности утверждает независимость признаков. Если рассчитанное значения критерия превысит табличное (таблица 4.3) для заданного уровня значимости  и (pq - 3) степеней свободы, то нулевая гипотеза должна быть опровергнута в пользу альтернативы о наличии такой зависимости. Число степеней свободы при применении критерия  определяется числом классов и требованием постоянства сумм частот по строкам и столбцам таблицы сопряженности.

    Разведка и добыча алмазов кимберлитов всегда сопровождается детальным исследованием их формы. Обычно выделяется несколько морфологических типов алмазов. Главные среди них: 1) октаэдрические кристаллы; 2) алмазы с полицентрически растущими гранями; 3) алмазы с уменьшающимися тригональными слоями роста; 4) алмазы с занозистым изломом. В таблице 8.11 показана частота встречаемости алмазов четырех названных морфологических типов в кимберлитах из трех разных трубок Сибирской платформы.

Эта таблица представляет собой двумерную таблицу сопряженности, где первым свойством является морфологический тип алмаза, а вторым - принадлежность алмаза к определенной кимберлитовой трубке. В таблице морфологический тип алмаза закодирован соответствующей цифрой.

Таблица 8.11

форма

кимберлитовая трубка

частоты
алмазов Мир Удачная Зарница форм
1 18(10) 5(10) 6(9) 29
2 29(15) 7(15) 8(14) 44
3 17(15) 15(15) 11(13) 43
4 25(49) 61(48) 53(42) 139
частоты трубок 89 88 78 N=255

    Предполагая независимость морфологического типа алмаза от его принадлежности к той или иной трубке, или, что тоже самое, - одинаковое соотношение морфологических типов алмаза в разных трубках, рассчитаем теоретические частоты парных событий. Пример парного события для таблицы 8.11: плоскогранный октаэдр, обнаруженный в трубке Мир или алмаз с занозистой штриховкой, найденный в трубке Зарница. Принцип расчета для упомянутого парного события и других событий вытекает из соотношения: доля плоскогранных кристаллов алмаза, найденных в трубке Мир равна доле плоскогранных алмазов, найденных во всех трубках.

Тогда парное событие: появление алмаза первого морфологического типа из трубки Мир будет иметь теоретическую частоту ( 8.35 ) 89·29 / 255 = 10. В таблице 8.11 рассчитаны все теоретические частоты парных событий. Результаты расчета приведены в скобках.

    Теперь рассчитаем критерий . В соответствие с (8.36) он будет равен сумме всех квадратов разностей теоретических и экспериментальных частот, нормированных на теоретические частоты:

 

Рассчитанная величина критерия намного превосходит критическое значение  для заданного уровня значимости  и 9 степеней свободы, равному числу классов таблицы без трех. Следовательно, с доверительной вероятностью P = 0.95 мы должны опровергнуть нулевую гипотезу о независимости формы алмаза от принадлежности к той или иной кимберлитовой трубке. Судя по таблице  4.3 доверительную вероятность сделанного вывода можно повысить до 0.999 и выше. Конкретные значения частот в таблице 8.11 позволяют считать, что относительное содержание алмазов первых двух морфологических типов в трубке Мир достоверно выше, чем в других трубках.

    Второй пример связан с петрографическим исследованием диоритов Кордовского интрузивного массива Восточного Саяна. Диориты сложены плагиоклазом, роговой обманкой, актинолитом, хлоритом, эпидотом, магнетитом, сфеном. Актинолит и хлорит являются вторичными минералами и замещают роговую обманку. При изучении пород под микроскопом возникло впечатление, что сфен предпочтительнее встречается в ассоциации с вторичными минералами диоритов: актинолитом и хлоритом. Для проверки этого предположения были проведены специальные подсчеты, в которых при последовательном поинтервальном просмотре диоритовых шлифов учитывалось: 1) сфена нет ; 2) сфен присутствует вместе с хлоритом или актинолитом; 3) сфен встречен без хлорита или актинолита; 4) хлорит или актинолит присутствуют без сфена. Всего было просмотрено 25 шлифов и учтено 2000 интервалов (таблица 8.12).

 

Таблица 8.12

Встречаемость сфена с актинолитом и хлоритом

в диоритах

  актинолит и хлорит есть актинолита и хлорита нет Суммы
сфен есть 16(7.4) 26(34.6) 42
сфена нет 338(346.6) 1620(1611.4) 1958
Суммы 354 1646 N = 2000

В скобках в таблице приведены теоретические частоты для нулевой гипотезы об отсутствии связи между сфеном и вторичными минералами. В частности, теоретическая частота совместной встречаемости сфена с хлоритом или актинолитом равна частоте встречаемости актинолита или хлорита, умноженной на частоту встречаемости сфена и деленную на общую величину выборки N.

Рассчитаем критерий:

Полученный результат 12.4 превосходит табличное критическое значение для уровня значимости 0.001 и одной степени свободы, равное 6.63. С вероятностью ошибки меньше 0.1 % мы можем отвергнуть нулевую гипотезу об отсутствии связи сфена со вторичными минералами и предположить, что образование сфена происходит при изменении диоритов и разложении роговой обманки, содержащей в своем составе титан.

 

 

Л И Т Е Р А Т У Р А

 

Ликеш И., Ляга Й. Основные таблицы математической статистики. - М.: Финансы и статистика, 1985. - 356 с.

Теннант-Смит Дж. Бейсик для статистиков. - М.: Мир, 1988.- 205 с.

Вентцель Е.С. Теория вероятностей и ее инженерные приложения. - М.: Наука, 1988. - 480 с.

Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. - М.: Финансы и статистика, Инфра М, 1995. - 384 с.

    Дэвис Дж.С. Статистический анализ данных в геологии. Книга 1. - М.: Недра, 1990. - 319 с.

    Чини Р.Ф. Статистические методы в геологии. - М.: Мир, 1986. - 187 с.

    Колде Я.К. Практикум по теории вероятностей и математической статистике. - М.: Высшая школа, 1991. - 157 с.

Справочник по математическим методам в геологии. - М.: Недра, 1987. - 335 с.

Четыркин Е.М., Калихман И.Л. Вероятность и статистика. - М.: Финансы и статистика, 1982. - 318 с.

 


Дата добавления: 2018-11-24; просмотров: 420; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!