Политический анализ и прогнозирование: учеб. пособие

Автор: | Год издания: 2006 | Издатель: Москва: Гардарики | Количество страниц: 333

Анализ одномерных распределений

Когда мы говорим об анализе одномерных распределений, то имеем в виду анализ свойств распределения значений одной переменной. Вопросы, ответы на которые мы находим в процессе одномерного анализа, могут звучать примерно таким образом: какова поддержка населением действующего президента в целом по стране? насколько типична эта усредненная поддержка, насколько она отражает показатели поддержки в различных регионах или среди различных социальных групп? каков общий размах колебаний этой поддержки, в каких пределах она варьируется? не отражает ли форма распределения поддержки по социальным группам наличия политического раскола в обществе? Во всех случаях мы имеем дело с одной переменной — «поддержка действующего президента населением», — со значениями, которая данная переменная принимает в отдельных случаях.

Наиболее важными операциями в рамках одномерного анализа являются, во-первых, вычисление средней с определением степени разброса данных вокруг нее, во-вторых — определение формы распределения значений переменной.

Средние величины и меры разброса

Средняя величина является в большинстве случаев весьма информативной мерой «центрального положения» наблюдаемой переменной. Она позволяет оценивать и сравнивать свойства не отдельных объектов, но групп объектов в целом. Например, мы проводим опрос среди студентов одной учебной группы с целью выявить их политическую самоидентификацию в качестве «левых», «либералов», «национал-патриотов» и «центристов». Всего опрашивается 15 человек, каждый респондент относит себя к той или иной категории политических взглядов. Соответственно, по итогам исследования у нас будет ясное представление о политической самоидентификации каждого из студентов курса, т. е. о том, какие значения принимает переменная «политическая самоидентификация» в каждом из 15 изученных случаев.

Но почти наверняка мы захотим получить информацию не только о взглядах каждого отдельного студента, но и о том: 1) как распределены студенты по категориям политических убеждений в группе в целом; 2) какова «средняя» политическая самоидентификация группы в целом. И здесь мы вступаем на путь статистических расчетов.

Переменная «политическая самоидентификация» является номинальной: мы попросту распределяем совокупность изучаемых объектов (15 респондентов) по четырем категориям, каждой из которых произвольно присваивается числовой код. Например: 1 — «левые», 2 — «либералы», 3 — «национал-патриоты», 4 — «центристы». Предположим, по итогам опроса мы получаем следующий ряд значений: (2,3,4, 4, 1, 1, 1,4, 4,2,2,3,3,4, 2).

Для превращения этих данных в осмысленную статистическую картину необходимо прежде всего рассчитать частотное распределение — показатель того, сколько раз встречается каждое из значений переменной. В нашем случае частота значения 1 («левые») составит 3, значения 2 («либералы») — 4, значения 3 («национал-патриоты») — 3, значения 4 («центристы») — 5. На основании частотного распределения легко вычислить процентное соотношение респондентов, принадлежащих к четырем категориям политической самоидентификации.

Таблица частот для нашего примера будет иметь следующий вид:

Категория

Частота

% от всех случаев

1 («левые»)

3

20%

2 («либералы»)

4

26,7%

3 («национал-патриоты»)

3

20%

4 («центристы»)

5

33,3%

Подобного рода данные удобно визуализировать, сделать наглядными при помощи построения круговой диаграммы или столбчатой гистограммы. Следует подчеркнуть, что визуализация данных в статистике сама по себе является аналитической процедурой. Сделав данные наглядными, мы сможем обнаружить скрытые в них закономерности.

Мы выяснили характер распределения студентов по категориям политических предпочтений в группе, теперь следует определиться со средней величиной. На номинальном уровне измерения средняя величина определяется на основе частотного распределения. Это попросту наиболее часто встречающееся значение, именуемое модой (модальным значением). В нашем случае модой является 4; иными словами, в группе наиболее распространены центристские убеждения. Имеющееся распределение будет называться унимодальным, так как значение моды всего одно. В ситуации, когда модальных значений несколько, распределение является мультимодалъным.

Наконец, необходимо выяснить, насколько средняя в действительности отражает характер распределения, т. е. насколько центристские политические взгляды на самом деле типичны для группы в целом. Показателем типичности средней для числового ряда в статистике является коэффициент вариации. Он показывает, насколько существен разброс значений вокруг средней.

Как и средние величины, меры вариации различаются на разных уровнях измерения. На н о м и н ал ьн о м уровне измерения можно использовать лишь один простой показатель — отношение общего числа немодальных (т. е. не соответствующих моде) значений к общему числу значений. В нашем случае все респонденты немодальных категорий («левые» + «либералы» + «национал-патриоты») составляют 10; всего же опрошено 15 респондентов. Соответственно, отношение (10:15) составит примерно 0,6. Чем ближе значение коэффициента к 0, тем лучше мода описывает реальное распределение; чем ближе к 1 — тем менее она репрезентативна.

По существу, операциями по расчету частотного распределения, процентного соотношения, моды и коэффициента вариации исчерпываются все возможные вычисления на номинальном уровне. Столь небольшое число опций обусловлено тем, что числа на этом уровне измерения служат не более чем «ярлыками», «опознавательными знаками» категорий признака, не отражая его какие-либо содержательные свойства.

На порядковом уровне измерения, где присутствует упорядочивание категорий с точки зрения возрастания/убывания интенсивности признака, открываются новые статистические возможности.

Основной средней величиной для порядковых переменных является медиана (М). Медиана представляет собой середину ранжированного числового ряда: выше и ниже медианы должно быть равное число элементов. Так, для ряда (1, 1, 2, 4, 4, 6, 7, 8, 9) медианой будет 4.

В случае, когда число элементов является четным (1, 1, 2, 4, 4, 6, 7, 8, 9, 9) и возникают как бы две середины числового ряда (4 и 6), медианой станет их среднее арифметическое — 5.

Распространенным способом измерить разброс значений вокруг средней на порядковом уровне является вычисление квартилей — четвертей ранжированного ряда. Значение нижнего (первого, 0]) квартиля показывает середину части числового ряда от его начала до медианы, верхнего (третьего, 0])— середину части от медианы до конца ряда. Второй квартиль совпадает с медианой. Чем больше интервал между нижним и верхним квартилем, тем больше разброс значений вокруг средней и тем в меньшей степени средняя является репрезентативной для числового ряда. Разность между верхним и нижним квартилем называется квартильным рангом и служит мерой вариации для порядковых переменных.

Проиллюстрируем одномерный анализ порядковых переменных следующим примером. Предположим, имеется две группы по 11 респондентов в каждой, которые должны дать оценку политической влиятельности лидера А по шкале от 0 до 10, где 0 — отсутствие влиятельности, 10 — максимальная влиятельность. Получены также оценки:

Группа

Оценки

1

1, 1,2, 3,4,5,6, 7,8,9, 10

2

3,3,4, 4,5, 5,5,5,6, 6,7

В обеих группах медианы получились одинаковые — 5. Другими словами, политическая влиятельность лидера Л оценена респондентами обеих групп на одинаковом среднем уровне. Но насколько эта усредненная оценка отражает реальное распределение мнений в каждой из групп, насколько едино мнение респондентов в каждой из групп относительно данной оценки?

Чтобы выяснить это, рассчитаем квартальные ранги для каждого случая. В первой группе нижний квартиль равен 2, верхний — 8, квартальный ранг равен 6 (6 = 8—2). Во второй группе нижний квартиль составляет 4, верхний — 6, квартальный ранг равен 2(2 = 6—4).

Группа

М

01

03

(3-ранг

1

5

2

8

6

2

5

4

6

2

Глядя на эту статистику, можно утверждать, что в первой группе средняя 5 является скорее случайным значением, не репрезентативным по отношению к общей совокупности мнений: разброс вокруг средней очень велик. Напротив, во второй группе наблюдается в достаточной мере консолидированное мнение, и оценку влиятельности политика А «на среднем уровне» можно считать действительной оценкой группы в целом.

На интервальном уровне измерения, предполагающем не только упорядочение категорий по признаку «больше—меньше», но и установление фиксированного интервала измерения, мы способны осуществлять все операции с натуральными числами. Наиболее распространенной средней величиной для интервальных вычислений является хорошо знакомое еще со школьной скамьи среднее арифметическое. Среднее арифметическое представляет собой результат деления суммы всех элементов совокупности на общее их число. Так, для числового ряда (1, 2, 3, 4, 5, 6, 7, 8, 9) среднее арифметическое составит 5 (5 = (1+2 + 3 + 4+ 5 + 6 + 7 + 8 +9) :9).

Характерной особенностью среднего арифметического является высокая чувствительность к кренам в распределении, связанным с наличием в совокупности одного или нескольких предельных значений. Например, если за партию Хв четырех районах из пяти проголосовало по 2% избирателей, а в одном — 90%, среднее арифметическое составит 19,6% — совершенно не информативное с точки зрения реальной картины распределения число.

Кстати, к таким предельным значениям совершенно не чувствительна медиана, что обусловлено спецификой порядкового уровня. Например, в ряду (1, 2, 3, 4, 5) число 3 является и медианой (больше и меньше его по два значения), и средним арифметическим. Однако если мы находимся на порядковом уровне измерения, то имеем право, к примеру, заменить число 5 на число 100. Такая возможность обусловлена тем, что 100 по-прежнему больше единицы, двойки, тройки и четверки, т. е. порядок чисел с точки зрения отношения «больше — меньше» не изменился. В числовом ряду (1, 2, 3, 4, 100) медианой остается 3, тогда как среднее арифметическое меняется радикально — 22. Среднее арифметическое чувствительно к абсолютным значениям чисел, а медиана — нет. Соответственно, находясь на порядковом уровне измерения, мы не можем корректным образом рассчитать среднее арифметическое, в то же время расчет медианы для интервальных переменных может оказаться весьма уместным.

Здесь следует подчеркнуть одно правило, связанное с использованием вычислительных процедур на разных уровнях измерения. В более сложных измерениях могут использоваться все вычисления, при более простых уровнях, но не наоборот. Так, на интервальном уровне можно рассчитывать и среднее арифметическое, и моду, и медиану; на порядковом — моду и медиану; на номинальном — только моду.

Традиционной мерой разброса значений вокруг средней на интервальном уровне выступает стандартное отклонение. Вычисление стандартного отклонения — несколько более изощренная процедура по сравнению с подсчетом медианы и моды. Она включает следующие стадии:

• подсчет разностей между средним значением и всеми имеющимися значениями, как бы определение расстояния (отклонения) от каждой точки числового ряда до его середины. В нашем примере с экстремальным показателем поддержки партии в одном из пяти районов мы получим четыре одинаковые разности: -17,6 (2—19,6) и одно значение 70,4 (90—19,6);

• возведение в квадрат каждого из полученных отклонений. Получаем четыре значения 309,62 (—17,б ) и одно значение 4956,16 (70,4 );

• суммирование всех квадратов отклонений. В нашем случае получится 6195,2 (309,62 + 309,62 + 309,62 + 309,62 + 4956,16);

• деление суммы квадратов отклонений на общее число элементов совокупности минус 1 (N— 1). В нашем случае получим 1548,8

(6195,2: (5-1));

извлечение из полученного частного квадратного корня: 39,35 (У1548,8). Это очень большое значение стандартного отклонения. Если бы «аномальный» район отдал партии не 90%, а 10% голосов, значение стандартного отклонения сократилось бы до 3,57.

Таким образом, стандартное отклонение представляет собой сумму квадратов отклонений всех измеренных значений от их среднеарифметического значения, деленную на количество элементов совокупности, минус 1.

При одномерном анализе распределений интервальных переменных используют и такие показатели, как минимум (наименьшее значение), максимум (наибольшее значение), размах (разница между минимумом и максимумом).