Корреляция между возрастом победительниц «Мисс Америка» и числом смертей из-за обваривания кипятком и других ожогов
В наш перенасыщенный данными век отыскать бессмысленные совпадения вроде этих довольно просто.
Некоторые из них успешно проходят тест на статистическую значимость. Всякий, кто станет искать корреляции достаточно долго и упорно, обязательно их найдет.
Вот почему разумно сосредоточиться на корреляциях, которые не лишены смысла. Существует очевидный фактор, объясняющий связь между знанием фактов и уровнем дохода: образование.
Если человек знает много фактов, он наверняка больше времени посвятил учебе. Кто хорошо образован, тот зарабатывает лучше. Помимо прочего, это подходящий девиз для рекламы подготовительных курсов и студенческого кредита. Дипломы Лиги плюща, Стэнфорда или Массачусетского технологического института приносят неплохие дивиденды (как было многократно засвидетельствовано)[127]. Для многих престижных профессий степени бакалавра искусств, магистра делового администрирования, доктора философии или медицины – эквивалент профсоюзного билета.
В связи с этим возникает вопрос: считать ли знание фактов исключительно надежным предвестником размера доходов или только индикатором уровня образования, полученного в учебных заведениях (то есть считать ли знание фактов «суррогатом» образования)?
Специалистам по статистике часто хочется определить влияние не одного, а сразу нескольких факторов, ответственных за определенный результат. Один из наиболее часто используемых методов – линейные регрессии . За мудреным названием стоит простая идея. Допустим, вам кажется, что между количеством пончиков, которые съедает человек, и его весом существует взаимосвязь. Можно ли по съедаемым пончикам предсказать вес едока? Один из способов это выяснить – собрать личные данные о весе и недельном пончиковом рационе. Затем возьмите лист миллиметровой бумаги и для каждого едока – персонального набора данных – отметьте точку (получится точечная диаграмма). Положение точек указывает на число съедаемых пончиков (по оси x ) и вес соответствующего едока (по оси y ).
|
|
Если корреляция имеется – люди, которые съедают много пончиков, весят больше, – то на диаграмме появится облако точек, устремленное вверх от нижнего левого угла к верхнему правому. Эта линия и называется линейной регрессией. С ее помощью можно строить прогнозы. Понадобилось узнать, сколько будет весить человек, съедающий в месяц 14 пончиков? От отметки 14 на «пончиковой» оси проведите вертикальную линию вплоть до ее пересечения с диагональю предполагаемой зависимости. Прямая, проведенная из этой точки по горизонтали, упрется в отметку на «весовой» оси. Так вы узнаете вероятный вес едока.
|
|
По сути, именно так и работают программы статистической обработки данных при создании линейных регрессий. И хотя машина, строя точечную диаграмму, на миллиметровке линий не чертит – для этого у нее есть четкий набор математических команд, – программы действуют по тому принципу, который я только что описал.
Гораздо интереснее учитывать не один, а несколько факторов, влияющих на результат. Предсказать вес едока можно точнее, приняв во внимание его пол – ведь мужчина обычно тяжелее женщины. Для этого нужно построить диаграмму рассеяния в трех плоскостях, что на бумаге сделать непросто. А вот для статистических программ это нетрудно.
Главным методом обработки большого массива данных служат так называемые множественные регрессии. Потребитель x пола, купивший y и имеющий почтовый индекс z , склонен покупать a , выбирать b и голосовать за c . По такой модели можно, например, оценить значимость каждого конкретного фактора при составлении прогноза. Когда факторов много, некоторые зачастую оказываются лишними. Если в модели есть почтовый индекс, то нет необходимости указывать населенный пункт (почтовый индекс содержит информацию о штате и указывает на место жительства более точно). Программа это принимает в расчет.
Дата добавления: 2019-09-08; просмотров: 175; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!