Логические процедуры анализа данных

Статистический анализ данных

Формат данного учебного пособия не предполагает описание математико-статистического аппарата, поэтому ниже будут рассмотрены только возможности использования инструментов статистики для анализа эмпирических социологических данных.

4.2.1 Измерение центральной тенденции

Для того чтобы в полученной числовой информации можно было выявить типичные характеристики, рассчитывают средние величины или меру центральной тенденции.

Средние величины – это обобщающие показатели, в основе которых могут лежать как количественные, так и качественные признаки. В первом случае, это может быть средний возраст сотрудников, средняя оценка на курсе по какой-то дисциплине и т.д. Во втором – типичный для большинства группы респондентов мотив получения образования, уровень удовлетворенности учебой и проч. Таким образом, назначение меры центральной тенденции − служить сводными количественными характеристиками, обеспечивающими наилучшее описание множества наблюдений или оценок одним единственным числом.

Важным условий применения средних величин является их расчет на качественно однородной совокупности. Это требование предполагает, например, что намереваясь выявить отношение к учебе типичного студента, мы не будем усреднять оценки отличников и тех, кто еле-еле переползает с курса на курс.

Виды средних величин:

Простая среднеарифметическая величина применяется в том случае, если в исходных данных значение каждого варианта встречается один раз. Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической простой:

(3+4+4+5):4 = 4 балла

Средняя арифметическая взвешенная используется, если имеется некоторая повторяемость значений единиц совокупности, поскольку позволяет учесть различную численность вариантов. Употребление простой среднеарифметической в этих случаях недопустимо, так как это неизбежно приводит к искажению. Например, на предприятии 10 работников со стажем работы до 3 лет, 20 - со стажем от 3 до 5 лет, 5 работников - со стажем более 5 лет. Рассчитаем средний стаж работников по формуле средней арифметической взвешенной, приняв в качестве середины интервалов стажа каждого варианта 2, 4 и 6 лет соответственно:

(2×10+4×20+6×5):(10+20+5) = 3,71 года

Для характеристики структуры совокупности применяются особые показатели, которые называются структурными средними. К таким показателям относятся мода и медиана.

Мода представляет собой наиболее часто встречающееся или типичное значение. Мода – именно то число, которое в действительности встречается чаще всего (является величиной определенной) Например, размер обуви, пользующийся наибольшим спросом.

Медиана – это число в середине набора чисел: половина чисел имеют значения большие, чем медиана, а половина чисел — меньшие. Например, медианой для 2, 3, 3, 5, 7 , 10 будет число 4.

При симметричном распределении набора чисел все три значения центральной тенденции будут совпадать. При несимметричном распределении набора чисел они могут быть разными.

Индексы. Для определения средних значений качественных признаков, выраженных в порядковых шкалах, строятся индексы. Индексы функционально значимы для анализа, поскольку способны «сворачивать» эмпирическую информацию, представлять ее в компактном, сжатом виде, служить базой для процедур сравнения. Пример построения социоэкономического индекса дан в Приложении 6.

4.2.2 Характеристики рассеивания Используя для описания ряда значений признака только меру центральной тенденции, можно сильно ошибиться в оценке характера изучаемой совокупности. Например, мы изучаем средний возраст двух групп, каждая из которых состоит из 6 человек. Значения признака распределились следующим образом: 1 группа – 10, 10, 10, 50, 50, 50 2 группа – 30, 30, 30, 30, 30, 30 Подсчитав среднее значение в каждой из групп, получаем значение 30 в обеих. Иначе говоря, мы получили одинаковые значения, тогда как совершенно очевидно, что это ошибка. В подобных ситуациях необходимо использовать показатели вариации признака. Вариация признака − показатель колебания признака в совокупности. Таким образом, показатель вариации позволяет оценить совокупность с точки зрения ее однородности/неоднородности.

Простейший показатель вариации − размах вариации – это разность между максимальным и минимальным значениями из имеющихся в изучаемой статистической совокупности. Недостатком данного показателя является то, что он дает только максимальное различие значений и не может измерять силу вариации во всей совокупности. Для оценки силы вариации используются такие показатели как коэффициент вариации и дисперсия.

Коэффициент вариации рассчитывается как отношение среднего квадратического отклонения к средней арифметической величине и выражается в процентах. Совокупность считается однородной, если коэффициент вариации не превышает 33%.

Дисперсия как показатель вариации показывает разброс значений признака относительно своего среднего арифметического. Чем больше разброс, тем менее однородной выступает исследуемая совокупность.

Корреляционная зависимость

Зависимость – статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. По видам различают функциональную и корреляционную зависимость.

Функциональной называют такую зависимость, при которой одному значению факторного признака X соответствует одно строго определенное значение результативного признака Y.

Корреляционная зависимость, в отличие от функциональной зависимости, выражает такую связь между явлениями, при которой одному значению факторного признака X могут соответствовать несколько значений результативного признака Y.

По направлению различают прямую и обратную корреляцию.

Прямой называют такую зависимость, при которой значение факторного признака X и результативного признака Y изменяются в одном направлении. Т.о. при увеличении значения X, значения Y в среднем увеличиваются, а при уменьшении X – Y уменьшается.

Обратная зависимость между факторным и результативным признаками имеет место, если они изменяются в противоположных направлениях.

Математической мерой корреляции двух случайных величин служат коэффициенты корреляции. При анализе эмпирических социологических данных чаще всего используют коэффициент ассоциации, ранговый коэффициент Спирмена и линейный коэффициент корреляции Пирсона.

Коэффициент ассоциации применяются для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп. При исследовании связи числовой материал располагают в виде таблиц сопряженности. Значение коэффициента меняется в границах от -1 до +1, но вне зависимости от знака «1» означает наличие явно выраженной связи между признаками, а «0» – отсутствие таковой.

Коэффициент Спирмена используется при оценке тесноты связи между количественными признаками, значения которых можно проранжировать. Значение коэффициента меняется от -1 до +1. Коэффициент, равный +1, означает полную идентичность в ранжировании двух сравниваемых признаков. Коэффициент, равный -1, показывает, что ранжирование признаков у двух сравниваемых групп прямо противоположно.

Коэффициент линейной корреляции Пирсона отражает меру линейной зависимости между двумя переменными. Предполагается, что переменные измерены в интервальной шкале либо в шкале отношений. Значения коэффициента также меняются от -1 до +1. Коэффициент, равный 0, означает отсутствие связи между признаками. Знак, в свою очередь, указывает на направление связи. Знак «плюс» свидетельствует о наличии прямой корреляции, «минус» – обратной. Соответственно, чем ближе значение к единице, тем теснее корреляционная связь.

Не следует забывать, что корреляционная зависимость обладает вероятностным характером, она не является абсолютно полной и точной, как, например, функциональная зависимость, когда значению одной величины соответствует вполне определенное значение другой.

Корреляционная зависимость показывает, что, если две величины изменяются совместно, то по значению одной из них можно предсказать тенденцию развития другой. Но само по себе это не означает наличие причинно-следственной связи. Более того, результаты исследований нередко дают примеры так называемых ложных корреляций, когда совместное изменение признаков вызвано случайным совпадением, либо недочетами проведения корреляционного анализа.

Так, в одном из исследований, посвященном анализу факторов, влияющих на эффективность работы, была допущена подобная ошибка. Авторы приняли некоторые связи за прямые и пришли к заключению, что в простых видах труда высокое образование отрицательно коррелирует с продуктивностью. Впоследствии было установлено, что это объяснялось различиями в уровне образования и производственного опыта молодых, рабочих среднего и старшего возрастов. Все обнаружилось, как только из всей совокупности обследованных были выделены подгруппы разного стажа и возраста: в каждой возрастной подгруппе обнаружились усиленные прямые связи уровня образования и деловитости, продуктивности рабочих, т. е. чем выше образование, тем выше и производственные результаты.

Логические процедуры анализа данных

Статистический анализ данных не является самодостаточным, он лишь предшествует содержательной интерпретации полученных в ходе исследования данных.

Наиболее универсальными процедурами логического анализа данных выступает описание, объяснение и прогноз.

4.3.1 Описание

    Описание – это целостная, логически завершенная фиксация структурных характеристик объекта изучения. В количественных исследованиях оно начинается с анализа линейных распределений (в абсолютных значениях и в процентах), т.е. с применением простых группировок данных. Сложные группировки предполагают соотнесение какого-либо признака с социально-демографическими характеристиками объекта: пол, возраст, стаж, квалификация, образование, профессия и проч. Таким образом дается дифференцированное описание отдельных групп исследуемой совокупности с помощью эмпирическая типологизации и сравнения.

    Эмпирическая типологизация является важным способом описания результатов исследования. Смысл ее сводится к поиску и описанию устойчивых сочетаний свойств социальных объектов в целостной системе переменных, относящихся к этому объекту. К примеру, можно создать типологию семей по стилю межличностностных взаимоотношений, типологию студентов-первокурсников по уровню их адаптации к учебе в вузе и т.д. В конечном счете, в основе любой типологии лежит правильный выбор критерия.

    Сравнение – процедура сопоставления данных, дающая возможность детализировать их описание через выявление сходства и различия. Полноценный анализ количественной информации возможет через сравнения данных между собой, с данными других исследований, со статистической информацией.

    Сравнение состояния одного и того же объекта в разные периоды позволяет выявить динамику, тенденции его развития. Сопоставление данных, полученных на разных объектах или с данными государственной статистики, позволяет увидеть объект в более широком социальном контексте, выявить его специфические особенности.

Объяснение

    Объяснение выступает более сложной процедурой логического анализа информации, поскольку главная задача объяснения – установление сущностных связей и отношений объекта. Иначе говоря, объяснение – это систематическое, эмпирически выверенное понимание того, почему явление происходит именно таким образом.

    Выявить причинно-следственные связи явлений можно применяя факторный, функциональный и генетический способы анализа.

    Факторный анализ используется для выяснения причинно следственных связей через выявление факторов, их обусловливающих. Например, причины отказного материнства можно выявить, исследуя объективные и субъективные, социально-экономические, социально-психологические, социально-педагогические, демографические и другие факторы.

    Функциональный подход используется для того, чтобы увидеть место объекта в определенной системе, соотнести его функциональное предназначение с реальной поведенческий практикой. К примеру, изучение внутригрупповых отношений в обязательном порядке предполагает использование функционального подхода в поиске объяснений.

    Генетический подход к объяснению чаще всего используется при проведении повторных исследований, поскольку именно здесь возможно отслеживание причинно-следственных связей в их динамике.

Дата добавления: 2018-04-15; просмотров: 147; Мы поможем в написании вашей работы!
Поделиться с друзьями:

Мы поможем в написании ваших работ!