v2
Книги, главы из книг для написания диплома, курсовой работы, реферата по предмету Маркетинг: Девятко И. Ф. Методы социологического исследования - Анализ связи между двумя переменными -"Электив"

Книги, главы из книг

Маркетинг

Девятко И. Ф. Методы социологического исследования

В данном разделе мы вам предлагаем бесплатные материалы, по которым возможно выполнение дипломов, курсовых, рефератов и контрольных работ по данному предмету самостоятельно, а также на заказ, в частности словари и справочники.

Кроме словарей и справочников билетов и вопросов Вы можете найти на сайте «Электив»: билеты и вопросы, методички, шпаргалки, книги, статьи, аннотации на книги, рецензии, словари, планы работ .

Также бесплатно вы можете подобрать литературу по данному предмету.

Списки литературы

Список тем работ, которые Вы можете у нас заказать в максимально короткие сроки.

 

Rambler's Top100
 
   
   
   
   
   
   
   
   
   

Анализ связи между двумя переменными

Хотя результаты одномерного анализа данных часто имеют самостоятельное значение, большинство исследователей уделяют основное внимание анализу связей между переменными. Самым простым и типичным является случай анализа взаимосвязи (сопряженности) двух переменных. Используемые здесь методы задают некоторый логический каркас, остающийся почти неизменным и при рассмотрении более сложных моделей, включающих множество переменных. Устойчивый интерес социологов к двумерному и многомерному анализу данных объясняется вполне понятным желанием проверить гипотезы о причинной зависимости двух и более переменных. Ведь утверждения о причинных взаимосвязях составляют фундамент не только социальной теории, но и социальной политики (по крайней мере, так принято считать). Так как возможности социологов проверять причинные гипотезы с помощью эксперимента, как уже говорилось, ограниченны, основной альтернативой является статистический анализ неэкспериментальных данных.

В общем случае для демонстрации причинно-следственного отношения между двумя переменными, скажем, X и Y, необходимо выполнить следующие требования:

1) показать, что существует эмпирическая взаимосвязь между переменными;

2) исключить возможность обратного влияния Y на Х;

3) убедиться, что взаимосвязь между переменными не может быть объяснена зависимостью этих переменных от какой-то дополнительной переменной (или переменных).

Первым шагом к анализу взаимоотношений двух переменных является их перекрестная классификация, или построение таблицы сопряженности. Речь идет о таблице, содержащей информацию о совместном распределении переменных. Допустим, в результате одномерного анализа данных мы установили, что люди сильно различаются по уровню заботы о своем здоровье: некоторые люди регулярно делают физические упражнения, другие — полностью пренебрегают зарядкой. Мы можем предположить, что причина этих различий — какая-то другая переменная, например, пол, образование, род занятий, доход и т. п.

Пусть мы располагаем совокупностью данных о занятиях физзарядкой и образовании для выборки горожан. Для простоты мы предположим, что обе переменные имеют лишь два уровня: высокий и низкий. Так как данные об образовании исходно разбиты на большее количество категорий, нам придется их перегруппировать, разбив весь диапазон значений на два класса. Предположим, мы выберем в качестве граничного значения 10 лет обучения, так что люди, получившие неполное среднее и среднее образование, попадут в «низкую» градацию, а остальные — в «высокую». (Это, конечно, большое огрубление, но мы используем его из соображений простоты.) Для занятий физическими упражнениями мы соответственно воспользуемся двумя категориями — «делают физзарядку» и «не делают физзарядку». Таблица 8.3 показывает, как могло бы выглядеть совместное распределение этих двух переменных.

Таблица 8.3

Взаимосвязь между уровнем образования и занятиями физкультурой

Занятия физкультурой

Уровень образования

Всего

низкий

высокий

делают зарядку

50

200

250

не делают зарядку

205

45

250

всего

255

245

500

В таблице 8.3 два столбца (для образования) и две строки (для занятий физкультурой), следовательно, размерность этой таблицы 2x2. Кроме того, имеются дополнительные крайний столбец и крайняя строка (маргиналы таблицы), указывающие общее количество наблюдений в данной строке или в столбце. В правом нижнем углу указана общая сумма, т. е. общее число наблюдений в выборке. Не давшие ответа уже исключены (для реальных данных их число также стоит указать, но не в таблице, а в подтабличной сноске). Заметим здесь, что многие исследователи при построении таких таблиц пользуются неписаным правилом: для той переменной, которую полагают независимой, отводится верхняя строка (горизонталь), а зависимую располагают «сбоку», по вертикали (разумеется, соблюдение этого правила не является обязательным и ничего с точки зрения анализа не меняет).

Обычно характер взаимоотношений между переменными в небольшой таблице можно определить даже «на глазок», сравнивая числа в столбцах или строках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в проценты, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал столбца, мы получим процент по столбцу. Например, %, т. е. 19,6% имеющих низкий уровень образования делают зарядку (но не наоборот!). Если делить на маргинал строки, то мы получим другую величину — процент по строке. В частности, можно заметить, что 80% делающих зарядку, составляют люди с высоким уровнем образования Деление на общую численность выборки дает общий процент. Так, всего в выборке 50% людей, делающих зарядку.

Так как вывод о наличии взаимосвязи между переменными требует демонстрации различий между подгруппами по уровню зависимой переменной, при анализе таблицы сопряженности можно руководствоваться простыми правилами. Во-первых, нужно определить независимую переменную и, в соответствии с принятым определением, пересчитать абсолютные частоты в проценты. Если независимая переменная расположена по горизонтали таблицы, мы считаем проценты по столбцу; если независимая переменная расположена по вертикали, проценты берутся от сумм по строке. Далее сравниваются процентные показатели, полученные для подгрупп с разным уровнем независимой переменной, каждый раз внутри одной категории зависимой переменной (например, внутри категории делающих зарядку). Обнаруженные различия свидетельствуют о существовании взаимосвязи между двумя переменными. (В качестве упражнения примените описанную процедуру к таблице 8.3, чтобы убедиться в наличии связи между уровнем образования и занятиями физкультурой.)

Отметим специально, что элементарная таблица сопряженности размерности 2x2 — это минимально необходимое условие для вывода о наличии взаимосвязи двух переменных. Знания о распределении зависимой переменной недостаточно. Нельзя, например, утверждать, будто из того, что 75% детей-первенцев имеют интеллект выше среднего, а 25% — средний и более низкий, следует зависимость между порядком рождения и интеллектом. Необходимо проанализировать и распределение показателей интеллекта для детей-непервенцев. Варьировать должна не только зависимая, но и независимая переменная.

Для таблиц размерности 2 х 2 и более можно рассчитать специальные показатели (статистики), дающие суммарное выражение степени взаимосвязи, ассоциации между двумя переменными. Таких мер связи довольно много. Для случая двух номинальных переменных существуют два основных подхода к подсчету коэффициентов взаимосвязи. Проанализировав их общую логику, мы получим возможность ориентироваться в многообразии конкретных показателей, предлагаемых прикладными программами анализа данных. Первый подход базируется на статистике, называемой «хи-квадрат». На ее основе можно рассчитать несколько коэффициентов взаимосвязи. Рассмотрим в качестве примера коэффициент «фи» (греч.(), формула для которого была впервые предложена сэром Карлом Пирсоном в 1901 году специально для того, чтобы сделать возможным анализ взаимосвязи между двумя переменными, измеренными на неколичественном уровне.

Таблица 8.4

Общая форма таблицы сопряженности размерности 2x2

Переменная Y

Переменная X

0

1

Всего

1

А

b

a + b

0

С

d

c + d

Всего

а + с

b + d

N

Предположим, мы располагаем таблицей сопряженности для двух переменных-признаков X и Y, каждая из которых принимает лишь два значения, которые мы условно обозначим как «0» и «1». В каждой из четырех клеток таблицы содержатся абсолютные частоты, т. е. число случаев для каждого из возможных сочетаний значений признаков (т. е. для сочетаний «0—1», «1—1», «0—0», «1—0»). Обозначим частоты в каждой из клеток таблицы латинскими буквами а, b, с и d. В такой общей форме таблица сопряженности для двух дихотомических признаков будет выглядеть как на таблице 8.4.

Для расчета коэффициента сопряженности «фи» используют формулу:



Эта простая в вычислительном отношении формула получается в результате ряда преобразований исходной формулы для вычисления величины «хи-квадрат» ((2). Эта исходная формула позволяет лучше понять общую идею оценки связи качественных признаков, которую мы опишем, не вдаваясь в статистические детали. Исходная формула для величины «хи-квадрат» выглядит так:



Понятно, что наблюдаемые частоты мы можем найти в клетках таблицы сопряженности. Но что понимается под ожидаемыми, точнее, теоретически ожидаемыми частотами? Ожидаемые частоты — это те частоты, которые должны были бы стоять в клетках той же таблицы сопряженности, если бы две интересующие нас переменные были бы независимы, т. е. расслоение наблюдений по одному признаку оставалось бы пропорциональным для разных подгрупп, выделенных по другому признаку.

Пусть, например, данные относительно участия в парламентских выборах для 1000 опрошенных позволили построить таблицу 8.5.

Таблица 8.5

Участие в выборах и пол

Участие в выборах

Женщины

Мужчины

Всего

Участвовали

200

500

700 (70%)

не участвовали

200

100

300 (30%)

Всего

400

600

1000(100%)

Для приведенных в таблице 8.5 данных гипотеза (или модель) независимого поведения признаков предполагала бы, что в мужской и женской подгруппах пропорция участия и неучастия в выборах должна была бы сохраняться такой же, как и для всей выборки в целом (разумеется, в пределах выборочной ошибки). Например, для женщин число участвовавших в выборах, с учетом их доли в выборке (равной 400/1000) составило бы  , т. е. 280 проголосовавших. Отсюда автоматически следует, что до избирательных участков не дошли бы 120 дам (т. е. 400 (280). Ожидаемая частота голосования для мужчин составила бы  Соответственно не проголосовали бы 180 мужчин. Для модели независимости признаков таблица сопряженности выглядела бы так:

Таблица 8.6

Ожидаемые частоты для распределения участия в

выборах по полу (рассчитанные в соответствии с моделью независимости признаков)

Участие в выборах

Женщины

Мужчины

Всего

участвовали

280

420

700

не участвовали

120

180

300

Всего

400

600

1000

Сравнив таблицы 8.5 и 8.6, мы видим, что многое во второй из них «осталось как было». Маргиналы таблицы, т. е. общее количество мужчин и женщин, проголосовавших и не проголосовавших, остались, естественно, неизменными. Отличаются лишь теоретически ожидаемые частоты в клетках таблицы 8.6. «Хи-квадрат» как раз и оценивает суммарную величину отклонения наблюдаемых значений от ожидаемых («взвешенную» относительно ожидаемых частот). Для данных таблицы 8.5 величина «хи-квадрат» составит 136,128 (проверьте самостоятельно, используя данные табл. 8.6). Это явно много, но, чтобы оценить существенность, значимость полученной величины, следует воспользоваться специальными таблицами. Отметим, что для того чтобы найти табличное значение, нужно определить так называемое число степеней свободы. В рассматриваемом примере оно равно единице, так как все теоретически ожидаемые частоты в таблице 8.5 — при заданных маргиналах — можно получить, вычислив лишь одну из них. Если бы размерность таблицы была бы 4x4 (по четыре номинальные градации для каждого признака), то оценка «хи-квадрат» производилась бы для (4 ( 1)(4 ( 1) = 9, т. е. 9 степеней свободы. Обсуждавшийся выше коэффициент ( — это просто квадратный корень нормированного относительно численности выборки «хи-квадрата». Удобства коэффициента ( очевидны: его легче вычислить, не прибегая к расчету ожидаемых частот, к тому же его величина меняется в пределах от 0 до 1 . (Попробуйте рассчитать значение для данных таблицы 8.5.) Существуют и другие коэффициенты взаимосвязи (сопряженности) признаков, основанные на величине «хи-квадрат», например, V Крамера, Т Чупрова.

Таблица 8.7

Взаимосвязь правонарушения и решения суда

Правонарушение

Приговор

Всего

штраф

условный приговор

тюремное заключение

автомобильная кража

5

30

5

40

кража со взломом

0

30

20

50

подделка денег

5

0

5

10

Всего

10

60

30

100

Другой тип коэффициентов взаимосвязи номинальных (и не только номинальных) переменных называют мерами «пропорционального уменьшения ошибки». Все они основаны на следующем предположении (или модели): если две переменные взаимосвязаны, мы можем предсказать значение одной переменной для данного наблюдения (случая), зная, какое значение принимает другая переменная. Степень соответствия такого предсказания действительности и используется в качестве коэффициента взаимосвязи. Любой коэффициент взаимосвязи, основанный на модели «пропорционального уменьшения ошибки» («ПУО»), имеет общую структуру, задаваемую формулой:



где Е1 — количество ошибок в предсказаниях значений зависимой переменной, с деланных без учета распределения по второй, независимой, переменной, а Е2 — количество ошибок в предсказаниях значений зависимой переменной, сделанных на основе значений независимой переменной. Конкретные коэффициенты, основанные на «ПУО», будут различаться в зависимости от того, что мы считаем ошибкой и как подсчитывается количество ошибок. В качестве примера можно рассмотреть «may-коэффициент» Гудмана-Краскела. Ошибкой в данном случае считается просто ошибочная классификация наблюдения, отнесение его в «неправильную» категорию. Рассмотрим таблицу сопряженности для приводимого Мюллером и соавторами примера гипотетических данных о влиянии типа правонарушения на характер решения суда (см. табл. 8.7).

Ошибка предсказания зависимой переменной (приговор), сделанного исключительно на основе ее собственного распределения, т. е. без учета распределения независимой переменной, определяется следующим образом. Мы знаем (см. маргиналы столбцов в нижней строчке таблицы), что в 60 случаях из 100 приговор был условным, но нам неизвестно, в каких именно шестидесяти случаях он был условным. Точно так же мы знаем, что в десяти случаях судья ограничился денежным штрафом, но мы наверняка неоднократно ошибемся, наугад определяя для каждого случая из 100, считать ли его одним из десяти «штрафных». Если бы каждому случаю соответствовала карточка с надлежащей надписью, которую мы с завязанными глазами помещали бы в одну из трех стопок, то при угадывании мы могли бы руководствоваться лишь значениями маргиналов по столбцам: в конечном счете в первой стопке должно оказаться 10 карточек, во второй — 60, а в третьей — 30.

Если мы наугад поместим во вторую стопку «условных приговоров» 60 карточек, то для каждой отдельной карточки (для каждого наблюдения) вероятность ошибки будет равна вероятности попадания туда карточки «штраф» или «тюремное заключение», т. е. 10/100 + 30/100 = 40/100. Иными словами, в среднем мы сделаем  ошибки для категории «условный приговор». Для первой категории («штраф») мы в среднем сделаем 10 х (60/100 + 30/100) = 9 ошибок. Для категории «тюремное заключение» (30 карточек) мы можем ожидать, что сделаем 21 ошибку. Суммарное значение числа ошибок предсказания Е1 (если в расчет принимается только распределение зависимой переменной) составит сумму этих трех значений:

Е1 = 24 + 9 + 21 = 54 ошибки.

Представим теперь, что распределяя карточки по трем категориям приговора, мы располагаем сведениями о том, каково значение второй переменной — «характер преступления» — для каждой карточки, т. е. для каждого наблюдения. Пусть, например, кто-нибудь каждый раз сообщает нам, каким было в данном случае правонарушение, предоставляя нам возможность самостоятельно предсказать приговор суда. Мы также знаем заранее, что 5 (12,5%) автомобильных краж из 40 повлекли за собой штраф, 30 (75%) — условный срок, а еще 5(12,5%) — тюремное заключение.

Нам, однако, предстоит угадать, какие именно из этих 40 случаев автомобильных краж попали в каждую из трех описанных категорий приговора. Процесс подсчета числа ошибок при таком угадывании сходен с вышеописанным. Зная, каково распределение наблюдений в строке «автомобильные кражи», мы можем оценить ожидаемые ошибки. Ожидаемая ошибка при случайном помещении 5 карточек с автомобильными кражами (из 40) в категорию «штраф» составит ошибки; при случайном размещении 30 карточек с автомобильными кражами в категорию «условный приговор» мы ожидаем, что ошибок предсказания в среднем будет  ошибки и т. д. Размещая 5 фальшивомонетчиков из 10 в стопку «штрафов», мы сделаем  ошибки. Проведя аналогичные подсчеты для всех трех строк таблицы 8.7 и просуммировав все ожидаемые ошибки, мы получим величину Е2, т. е. ожидаемое число ошибок в предсказаниях приговора суда, сделанных с учетом информации о характере преступления (независимой переменной). Для данных, приведенных в таблице 8.7, величина Е2 составит 45,25. Отсюда,

(

Таблица 8.8

Ранги четырех школьниц по привлекательности (X) и популярности(Y)

Случай

Переменная X (ранг по привлекательности)

Переменная F (ранг по популярности)

Ольга

1

1

Светлана

2

3

Марьяна

3

2

Наташа

4

4

Для простейшего случая таблицы сопряженности 2 x 2 существует более простая в вычислительном отношении формула:

(

где a, b, с, d — частоты в клетках таблицы (см. табл. 8.4).

Отметим здесь, что направление связи далеко не всегда очевидно, т. е. не всегда можно уверенно утверждать, какая из переменных является зависимой. Если исследователь решит, что независимой является переменная, расположенная по горизонтали (а не по вертикали, как в нашем примере), он сможет подсчитать другую величину «тау-коэффициента», на этот раз идя «от строк» и выполнив все операции в обратном порядке. (Для четырехклеточных таблиц величины «тау» по строкам и по столбцам будут равны.)

Примером ПУО-коэффициента, специально предназначенного для измерения связи двух ординальных (т. е. измеренных на порядковом уровне) переменных, может служить коэффициент «гамма». «Гамма» измеряет относительное уменьшение ошибки предсказания ранга конкретного наблюдения по зависимой переменной. Для того чтобы вручную рассчитать значение «гаммы» для небольшой выборки, нужно упорядочить наблюдения по независимой и зависимой переменным, как это показано в таблице 8.8 для данных о внешней привлекательности (экспертные оценки) и популярности школьниц (данные опроса одноклассников).

Далее нужно сравнивать случаи (т. е. школьниц) попарно, определяя, сходится или расходится порядок расположения двух этих случаев по двум переменным. Если упорядочения сходятся, пара называется согласованной, если они не сходятся, то пару нужно считать несогласованной. Результаты анализа для данных таблицы 8.8 представлены в таблице 8.9.

Предполагается, что если согласованных (т. е. правильно предсказывающих порядок по зависимой переменной) пар больше, чем несогласованных, связь между переменными велика. Если несогласованных пар больше, то связь отрицательна (чем выше ранг по одной переменной, тем ниже ранг по другой). Если же различие между числом согласованных и несогласованных пар невелико, то связь между переменными просто отсутствует. Поэтому формула для «гаммы» такова:



где Ns — число согласованных пар,

Nr — число несогласованных пар.

Таблица 8.9

Попарные сравнения рангов по переменным X и Y

Пара

Порядок по

X*

Порядок по Y*

Знак пары

(«+» — согласованная,

«(» — несогласованная)

Ольга — Светлана

O > C

O > C

+

Ольга — Марьяна

O > M

O > M

+

Ольга — Наташа

О > Н

О > Н

+

Светлана — Марьяна

С ( М

М > С

(

Светлана — Наташа

С ( Н

С > Н

+

Марьяна — Наташа

М > Н

М > Н

+

* Примечание. Здесь использованы лишь начальные буквы имен, т. е. «О > С» означает, что ранг Оли выше ранга Светы.

Для данных, используемых в нашем примере:



О том, как измерить связь (корреляцию) количественных переменных, мы поговорим немного позже, сделав одно важное отступление.


Если же вы решите заказать у нас диплом, реферат, курсовую, а также любую другую работу или услугу, перечисленную в разделе "Услуги и цены". Для получения более детальной информации ознакомьтесь с вопросами оплаты и доставки, ответами на наиболее частые вопросы, статьями наших авторов.

Имя
E-mail
Телефон
Город, ВУЗ
Тип работы
Предмет
Тема работы
Объём работы
Сумма, которую Вы готовы заплатить
Максимальный срок выполнения заказа
Особые замечания

 

Заказ курсовой, заказ реферата, заказ диплома Вы можете сделать, заполнив форму заказа, позвонив по телефону горячей линии 8(926)2300747, или переслав сообщение по адресу zakaz@xn--b1afjhd8b5d.xn--p1ai.

 

  HotLog Rambler's Top100 Рейтинг@Mail.ru      
  Карта раздела тем Ресурсы сети Списки литературы