Таблицы статистики колмогорова для сложных гипотез. SPSS в психологии и социальных науках. Использование критерия для проверки нормальности

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для сравнения эмпирического распределения с теоретическим.

Критерий позволяет найти точку, в которой сумма накопленных частот расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения. Нулевая гипотеза H 0 ={различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними)}.

Схематично алгоритм применения критерия Колмогорова-Смирнова можно представить следующим образом:

Проиллюстрируем использование критерия Колмогорова-Смирнова на примере.

При изучении творческой активности студентов были получены результаты для экспериментальных и контрольных групп (см. таблицу). Являются ли значимыми различия между контрольной и экспериментальной группами?

Уровень усвоения

Частота в экспериментальной группе

Частота в контрольной группе

Хороший

172 чел.

120 чел.

Приблизительный

36 чел.

49 чел.

Плохой

15 чел.

36 чел.

Объём выборки

n 1 =172+36+15=223

n 2 = 120+49+36=205

Вычисляем относительные частоты f , равные частному от деления частот на объём выборки, для двух имеющихся выборок.

В результате исходная таблица примет следующий вид:

Относительная частота экспериментальной группы ( f эксп )

Относительная частота контрольной группы ( f контр )

Модуль разности частот | f эксп – f контр |

172/223≈ 0.77

120/205≈ 0.59

0.18

36/223≈ 0.16

49/205≈ 0.24

0.08

15/223≈ 0.07

36/205≈ 0.17

Среди полученных модулей разностей относительных частот выбираем наибольший модуль, который обозначается d max . В рассматриваемом примере 0.18>0.1>0.08, поэтому d max =0.18.

Эмпирическое значение критерия λ эмп определяется с помощью формулы:

Чтобы сделать вывод о схожести по рассматриваемому критерию между двумя группами, сравним экспериментальное значение критерия с его критическим значением, определяемым по специальной таблице, исходя из уровня значимости . В качестве нулевой гипотезы примем утверждение о том, что сравниваемые группы незначительно отличаются друг от друга по уровню усвоения. При этом нулевую гипотезу следует принять в том случае, если наблюдаемое значение критерия не превосходит его критического значения.

Считая, что , по таблице определяем критическое значение критерия: λ кр (0,05)=1,36.

Таким образом, λ эмп =1,86>1,36= λ кр. Следовательно, нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.

Заметим, что объёмы рассматриваемых выборок должны быть достаточно большими: n 1 ≥50, n 2 ≥50.

Вопрос 3

λ - критерий Колмогорова-Смирнова

Назначение критерия

Критерий λ предназначен для сопоставления двух распределений:

а) эмпирического с теоретическим , например, равномерным или нормальным;

б) одного эмпирического распределения с другим эмпирическим распределением.

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

Описание критерия

Если в методе χ 2 мы сопоставляли частоты двух распределений отдельно по каждому разряду, то здесь мы сопоставляем сначала часто­ты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверны­ми. В формулу критерия λ включается эта разность. Чем больше эмпи­рическое значение λ , тем более существенны различия.

Гипотезы -

Н 0: Различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).

H 1: Различия между двумя распределениями достоверны (судя по точке максимального накопленного расхождения между ними).

Графическое представление критерия

Рассмотрим для иллюстрации распределение желтого (№4) цвета в 8-цветном тесте М. Люшера. Если бы испытуемые случайным обра­зом выбирали цвета, то желтый цвет, так же, как и все остальные, равновероятно мог бы занимать любую из 8-и позиции выбора. На практике, однако, большинство испытуемых помещают этот цвет, "цвет ожидания и надежды" на одну из первых позиций ряда.

На Рис. 4.9 столбиками представлены относительные частоты 8 попадания желтого цвета сначала на 1-ю позицию (первый левый стол­бик), затем на 1-ю и 2-ю позицию (второй столбик), затем на 1-ю, 2-ю и 3-ю позиции и т. д. Мы видим, что высота столбиков постоянно воз­растает, так как они отражают относительные частоты, накопленные к данной позиции. Например, столбик на 3-й позиции имеет высоту 0,51. Это означает, что на первые три позиции желтый цвет помещают 51% испытуемых.

8 Относительная частота, или частость, - это частота, отнесенная к общему коли­честву наблюдении; в данном случае это частота попадания желтого цвета на дан­ную позицию, отнесенная к количеству испытуемых. Например, частота попадания желтого цвета на 1-ю позицию ƒ=24; количество испытуемых n=102; относительная частота ƒ*=ƒ/n=О,235.

Прерывистой линией на Рис. 4.9 соединены точки, отражающие накопленные частоты, которые наблюдались бы, если бы желтый цвет с равной вероятностью попадал на каждую из 8-и позиций. Сплошными линиями обозначены расхождения между эмпирическими и теоретически­ми относительными частотами. Эти расхождения обозначаются как d .

Рис 4.9 . Сопоставления в критерии λ: стрелками отмечены расхождения между эмпирическими и теоретическими накоплениями относительными частотами по каждому разряду

Максимальное расхождение на Рис. 4.9 обозначено как d max Именно эта, третья позиция цвета, и является переломной точкой, опре­деляющей, достоверно ли отличается данное эмпирическое распределе­ние от равномерного. Мы проверим это при рассмотрении Примера 1.

Ограничения критерия λ

1. Критерии требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, что­бы n 1,2 > 50. Сопоставление эмпирического распределения с теоре­тическим иногда допускается при n> 5 (Ван дер Варден Б.Л., 1960; Гублер Е.В., 1978).

2. Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, мы можем за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточ­ности и т. д. В то же время, если мы возьмем разряды, которые случайно оказались выстроенными в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Например, если шесть стимульных картин в ме­тодике Хекхаузена разным испытуемым предъявляются в разном порядке, мы не вправе говорить о накоплении реакций при переходе от картины №1 стандартного набора к картине №2 и т. д. Мы не можем говорить об однонаправленном изменении признака при со­поставлении категорий "очередность рождения", "национальность", "специфика полученного образования" и т.п. Эти данные представ­ляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.

Итак, мы не можем накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упо­рядоченные по возрастанию или убыванию какого-либо признака кате­гории, нам следует применять метод χ 2 .

Пример 1: Сопоставление эмпирического распределения с теоретическим

Ввыборке здоровых лиц мужского пола, студентов технических и военно-технических вузов в возрасте от 19-ти до 22 лет, средний воз­раст 20 лет, проводился тест Люшера в 8-цветном варианте. Установ­лено, что желтый цвет предпочитается испытуемыми чаще, чем отверга­ется (Табл. 4.16). Можно ли утверждать, что распределение желтого цвета по 8-и позициям у здоровых испытуемых отличается от равно­мерного распределения?

Таблица 4.16

Эмпирические частоты попадания желтого цвета на каждую из 8 позиций (n=102)

Позиции желтого цвета

Эмпирические частоты

Сформулируем гипотезы.

H 0: Эмпирическое распределение желтого цвета по восьми позициям не отличается от равномерного распределения.

H 1: Эмпирическое распределение желтого цвета по восьми позициям отличается от равномерного распределения.

Теперь приступим к расчетам, постепенно заполняя результатами таблицу расчета критерия λ. Все операции лучше прослеживать по Табл. 4.17, тогда они будут более понятными.

Занесем в таблицу наименования (номера) разрядов и соответст­вующие им эмпирические частоты (первый столбец Табл. 4.17).

Затем рассчитаем эмпирические частости ƒ* по формуле:

ƒ* j = ƒ*/ n

где f j - частота попадания желтого цвета на данную позицию; n- общее количество наблюдений;

j - номер позиции по порядку.

Запишем результаты во второй столбец (см. Табл. 4.17).

Теперь нам нужно подсчитать накопленные эмпирические часто­сти ∑ƒ*. Для этого будем суммировать эмпирические частости ƒ*. На­пример, для 1-го разряда накопленная эмпирическая частость будет равняться эмпирической частости 1-го разряда, Eƒ* 1 =0,235 9 .

Для 2-го разряда накопленная эмпирическая частость будет пред­ставлять собой сумму эмпирических частостей 1-го и 2-го разрядов:

Eƒ* 1+2 =O,235+0,147=0,382

Для 3-го разряда накопленная эмпирическая частость будет пред­ставлять собой сумму эмпирических частостей 1-го, 2-го и 3-го разрядов:

Eƒ* 1+2+3 =0,235+0,147+0,128=0,510

Мы видим, что можно упростить задачу, суммируя накопленную эмпирическую частость предыдущего разряда с эмпирической частостью данного разряда, например, для 4-го разряда:

Eƒ* 1+2+3+4 =0,510+0,078=О,588

Запишем результаты этой работы в третий столбец.

Теперь нам необходимо сопоставить накопленные эмпирические частости с накопленными теоретическими частостями. Для 1-го разряда теоретическая частость определяется по формуле:

f * теор = 1/k

9 Все формулы приведены для дискретных признаков, которые могут быть выра­жены целыми числами, например: порядковый номер, количество испытуемых, ко­личественный состав группы и т.п.

где k - количество разрядов (в данном случае - позиций цвета).

Для рассматриваемого примера:

f * теор =1/8=0,125

Эта теоретическая частость относится ко всем 8-и разрядам. Действительно, вероятность попадания желтого (или любого другого) цвета на каждую из 8-и позиций при случайном выборе составляет 1/8, т.е. 0,125.

Накопленные теоретические частости для каждого разряда определяем суммированием.

Для 1-го разряда накопленная теоретическая частость равна теоретической частости попадания в разряд:

f * т1 =0,125

Для 2-го разряда накопленная теоретическая частость представ­ляет собой сумму теоретических частостей 1-го и 2-го разрядов:

f * т1+2 =0,125+0,125=0,250

Для 3-го разряда накопленная теоретическая частость представ­ляет собой сумму накопленной к предыдущему разряду теоретической частости с теоретической частостью данного разряда:

f * т1+2+3 =0,250+0,125=0,375

Можно определить теоретические накопленные частости и путем умножения:

S f * т j = f * теор * j

где f * теор - теоретическая частость;

j - порядковый номер разряда.

Занесем рассчитанные накопленные теоретические частости в четвертый столбец таблицы (Табл. 4.17).

Теперь нам осталось вычислить разности между эмпирическими и теоретическими накопленными частостями (столбцы 3-й и 4-й). В пя­тый столбец записываются абсолютные величины этих разностей, обо­значаемые как d .

Определим по столбцу 5, какая из абсолютных величин разности является наибольшей. Она будет называться d max . В данном случае d max =0,135.

Теперь нам нужно обратиться к Табл. X Приложения 1 для оп­ределения критических значений d max при n=102.

Таблица 4.17

Расчет критерия при сопоставлении распределения выборов желтого цвета с равномерным распределением (n=102)

Позиция желтого цвета

Эмпирическая частота

Эмпирическая частость

Накопленная эмпирическая частость

Накопленная теоретическая частость

Разность

Для данного случая, следовательно,

Очевидно, что чем больше различаются распределения, тем больше и различия в накопленных частостях. Поэтому нам не составит труда распределить зоны значимости и незначимое™ по соответствую­щей оси:

d эмп - d кр

Ответ: Но отвергается при р=0,05. Распределение желтого цве­та по восьми позициям отличается от равномерного распределения. Представим все выполненные действия в виде алгоритма

АЛГОРИТМ 14

Расчет абсолютной величины разности d между эмпирическим и равномерным распределениями

1. Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (первый столбец).

ƒ* эмп = ƒ эмп / n

где ƒ эмп - эмпирическая частота по данному разряду;

п - общее количество наблюдений.

Занести результаты во второй столбец.

f * j =∑ f * j -1 + f * j

где f * j -1

j - порядковый номер разряда;

f* j:- эмпирическая частость данного j-ro разряда.

Занести результаты в третий столбец таблицы.

f j =∑ f j -1 + f j

где =∑ f j -1 - теоретическая частость, накопленная на предыдущих разрядах;

j - порядковый номер разряда;

ƒ* т j: - теоретическая частость данного разряда. Занести результаты в третий столбец таблицы.

5.Вычислить разности между эмпирическими и теоретическими нако­пленными частостями по каждому разряду (между значениями 3-го и 4-го столбцов).

6.Записать в пятый столбец абсолютные величины полученных раз­ностей, без их знака. Обозначить их как d .

7. Определить по пятому столбцу наибольшую абсолютную величину разности - d max .

8. По Табл. X Приложения 1 определить или рассчитать критические значения d max для данного количества наблюдений n .

Если d max равно критическому значению d или превышает его, различия между распределениями достоверны.

Пример 2: сопоставление двух эмпирических распределений

Интересно сопоставить данные, полученные в предыдущем при­мере, с данными обследования X. Кларом 800 испытуемых (Klar H., 1974, р. 67). X. Кларом было показано, что желтый цвет является единственным цветом, распределение которого по 8 позициям не отли­чается от равномерного. Для сопоставлений им использовался метод χ 2 . Полученные им эмпирические частоты представлены в Табл. 4.18.

Таблица 4.18

Эмпирические частоты попадания желтого цвета на каждую из 8 пози­ций в исследовании X. Клара (по: Klar H., 1974) (п=800)

Разряды-позиции желтого цвета

Эмпирические частоты

Сформулируем гипотезы.

Н 0: Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара не различаются.

H 1: Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара отличаются друг от друга.

Поскольку в данном случае мы будем сопоставлять накопленные эмпирические частости по каждому разряду, теоретические частости нас не интересуют.

Все расчеты будем проводить в таблице по алгоритму 15.

АЛГОРИТМ 15

Расчет критерия λ при сопоставления двух эмпирических распределений

1.Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты, полученные в распределении 1 (первый столбец) и в распределении 2 (второй столбец).

ƒ* э =ƒ э / n 1

где ƒ э

n 1 [ - количество наблюдений в выборке.

Занести эмпирические частости распределения 1 в третей столбец.

ƒ* э =ƒ э / n 2

где ƒ э - эмпирическая частота в данном разряде;

n 2 - количество наблюдений во 2-й выборке.

Занести эмпирические частости распределения 2 в четвертый столбец таблицы.

∑ƒ* j =∑ƒ* j -1 +ƒ* j

где ∑ƒ* j -1 - частость, накопленная на предыдущих разрядах;

j - порядковый номер разряда;

ƒ* j -1 - частости данного разряда.

Полученные результаты записать в пятый столбец.

7.Определить по седьмому столбцу наибольшую абсолютную величину разности

где n 1 - количество наблюдений в первой выборке;

n 2 - количество наблюдении во второй выборке.

9. По Табл. XI Приложения 1 определить, какому уровню статистической зна­чимости соответствует полученное значение λ.

Если λ эмп > 1,36, различия между распределениями достоверны.

Последовательность выборок может быть выбрана произвольно, так как расхождения между ними оцениваются по абсолютной величине разностей. В нашем случае первой будем считать отечественную выбор­ку, второй - выборку Клара.

Таблица 4.19

Расчет критерия при сопоставлении эмпирических распределений

желтого цвета в отечественной выборке (n1=102)

и выборке Клара (п2 =: 800)

Позиция желтого цвета

Эмпирические частоты

Эмпирические частости

Накоплены эмпирические частности

Разность

∑ƒ* 1 -∑ƒ* 2

∑ƒ* 1

∑ƒ* 2

Максимальная разность между накопленными эмпирическими частостями составляет 0,118 и падает на второй разряд.

В соответствии с пунктом 8 алгоритма 15 подсчитаем значение λ:

По Табл. XI Приложения 1 определяем уровень статистической
значимости полученного значения: р=0,16:

Построим для наглядности ось значимости.

На оси указаны критические значения λ соответствующие приня­тым уровням значимости: λ 0,05 =1,36, λ 0,01 =1,63.

Зона значимости простирается вправо, от 1,63 и далее, а зона незначимости – влево, от 1,36 к меньшим значениям.

λ эмп < λ кр

Ответ: Но принимается. Эмпирические распределения желтого цвета по 8 позициям в отечественной выборке и выборке X. Клара совпадают. Таким образом, распределения желтого цвета в двух выбор­ках не различаются, но в то же время они по-разному соотносятся с равномерным распределением: у Клара отличий от равномерного рас­пределения не обнаружено, а 8 отечественной выборке различия обна­ружены (р<0,05). Возможно, картину могло бы прояснить применение другого метода?

Е.В. Гублер (1978) предложил сочетать использование критерия λ с критерием φ* (угловое преобразование Фишера).

Об этих возможностях сочетания методов λ и φ* мы поговорим в следующей лекции.

.5. Алгоритм выбора критерия для сравнения распределений

Назначение критерия

Критерий предназначен для сопоставления двух распределений:

а) эмпирического с теоретическим, например, равномерным или нормальным;

б) одного эмпирического распределения с другим эмпирическим распределением.

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

Описание критерия

Если в методе мы сопоставляли частоты двух распределений отдельно по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т.д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой–то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия включается эта разность. Чем больше эмпирическое значение , тем более существенны различия.

Гипотезы

Различия между распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).

: Различия между распределениями достоверны (судя по точке максимального накопленного расхождения между ними).

Для применения критерия Колмогорова–Смирнова необходимо соблюдать следующие условия:

1. Измерение может быть проведено шкале интервалов и отношений.

2. Выборки должны быть случайными и независимыми.

3. Желательно, чтобы суммарный объем двух выборок ≥ 50. С увеличением объема выборки точность критерия повышается.

4. Эмпирические данные должны допускать возможность упорядочения по возрастанию или убыванию какого-либо признака и обязательно отражать какое-то его однонаправленное изменение. В том случае, если трудно соблюсти принцип упорядоченности признака, лучше использовать критерий хи -квадрат.

Этот критерий используется для решения тех же задач, что и критерий -квадрат. Иначе говоря, с его помощью можно сра­нивать эмпирическое распределение с теоретическим или два эмпирических распределения друг с другом. Однако если при применении хи -квадрат мы сопоставляем частоты двух распределений, то в данном критерии сравниваются накопленные (кумулятивные) частоты по каждому разряду (альтернативе). При этом если разность накопленных частот в двух распределениях оказывается большой, то различия между двумя распределениями яв­ляются существенными.

Задача 8.12. Предположим, что в эксперименте психологу не­обходимо использовать шестигранный игральный кубик с цифрами на гранях от 1 до 6. Для чистоты эксперимента необходимо получить «идеальный» кубик, т.е. такой, чтобы при достаточно большом числе подбрасываний, каждая его грань выпадала бы примерно равное число раз. Задача состоит в выяснении того, будет ли данный кубик близок к идеальному?

Решение. Подбросим кубик 120 раз и сравним полученное эмпирическое распределение с теоретическим. Поскольку теоретическое распределение является равновероятным, то соответствующие теоретические частоты равны 20. Распределение эмпирических и теоретических частот представим совместно в таблице 8.15:

Для подсчета по критерию Колмогорова–Смирнова необхо­димо провести ряд преобразований с данными таблицы 8.15. Представим эти преобразования в таблице 8.16 и объясним их получение:

Символом FE в таблице 8.16 будем обозначать накопленные теоретические частоты. В таблице они получаются следующим образом: к первой теоретической частоте 20, добавляется вторая частота, также равная 20, получается число 20 + 20 = 40. Число 40 ставится на место второй частоты. Затем к числу 40 прибавляется следующая теоретическая частота, полученная величина 60 - ставится на место третьей теоретической частоты и так далее.

Символом FB в таблице 8.16 обозначаются накопленные эмпирические частоты. Для их подсчета необходимо расположить эмпирические частоты по возрастанию: 15, 18, 18, 21, 23, 25 и затем по порядку сложить. Так, вначале стоит первая частота равная 15, к ней прибавляется вторая по величине частота и полученная сумма 15 + 18 = 33 ставится на место второй частоты, затем к 33 добавляется 18 (33 + 18 = 51), полученное число 51 ставится на место третьей частоты и т.д.

Символом |FE - FB| в таблице 8.16 обозначаются абсолютные величины разности между теоретической и эмпирической частотой по каждому столбцу отдельно.

Эмпирическую величину этого критерия, которая обозначается как D эмп получают используя формулу (8.13):

Для её получения среди чисел |FE - FB| находят максимальное число (в нашем случае оно равно 9) и делят его на объем выборки п. В нашем случае п = 120, поэтому

Для этого критерия таблица с критическими значениями дана в Приложении 1 под № 13. Из таблицы 13 Приложения 1 следует, однако, что в том случае, если число элементов выборке больше 100, то величины критических значений вычисляются по формуле (8.14).

Критерий предназначен для сопоставления двух распределений: эмпирического с теоретическим , например, равномерным или нормальным; одного эмпирического распределения с другими эмпирическим распределением .

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

То есть сначала сопоставляются частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, сопоставляются всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, что служит основанием признать различия статистически достоверными. В формулу критерия λ включается эта разность. Чем больше эмпирическое значение λ, тем более существенны различия.

Ограничения критерия Колмогорова-Смирнова

1. Критерий требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, чтобы n 1,2 ≥ 50. Сопоставление эмпирического распределения с теоретическим иногда допускается при n ≥ 5 (Ван дер Варден Б.Л., 1960; Гублер Е.В., 1978).

2. Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, можно за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточности и т.д. В то же время, если взять разряды, которые случайно оказались выстроенными в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Например, если шесть стимульных картин в методике Хекхаузена разным испытуемым предъявляются в разном порядке, невозможно говорить о накоплении реакций при переходе от картины №1 стандартного набора к картине №2 и т. д. Нельзя говорить об однонаправленном изменении признака при сопоставлении категорий «очередность рождения», «национальность», «специфика полученного образования»» и т.п. Эти данные представляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.

Итак, невозможно накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упорядоченные по возрастанию или убыванию какого-либо признака категории, следует .

Автоматический расчет критерия Колмогорова-Смирнова

Чтобы произвести расчет данных по критерию, необходимо:

Включить поддержку JavaScript;

Выбрать вид сопоставляемых распределений: «эмпирического с теоретическим» или «эмпирического с эмпирическим»;

Ввести данные разрядов (на увеличение или уменьшение), частоты. Данные необходимо вводить по одному числу на строку, без пробелов, пропусков и т.д., вводить только цифры;

Произвести расчет, нажав на кнопку «Шаг 2».

В случае некорректной работы скрипта (ошибок в расчетах и пр.), просим вас .

По опыту хождения на защиты курсовых и дипломных работ по психологии подметил ряд распространённых и коварных ошибок в работах. Задумал черкнуть текст, предостерегающий от таких ошибок. Буду благодарен, если специалисты по статистике проверят.

Чтобы не вываливать сразу много, пока первые пять пунктов.


1. Если по критерию Колмогорова-Смирнова получилось p-значение больше 0,05 (или 0,1) – распределение нормально, можно делать параметрические методы.

Критерий Колмогорова-Смирнова оценивает значимость различий между формой двух распределений. При проверке нормальности (на самом деле, это лишь частный случай применения K-S теста) речь идёт об обнаружении значимых отличий между формой Вашего распределения и моделью нормального. То есть p-значение больше 0,05 (и т.п.) следует понимать как «Я не нашёл различий между Вашим распределением и нормальным (значимых различий на этом уровне)».

А не найти различия можно просто потому, что на руках слишком мало данных для обнаружения. Точно так же, как следователь не может найти преступника при малом количестве улик. Это ещё не значит, что дело чисто.

Так вот, Колмогоров-Смирнов – весьма требовательный к объёму данных критерий, который начинает адекватно работать на выборке в районе 80. Чем меньше выборка – тем труднее ему углядеть что-нибудь. На выборках в 20-40 человек, которые часто бывают в студенческих работах, критерий Колмогорова-Смирнова практически всегда будет заявлять «Я не смог увидеть никаких различий», каким бы перекошенным не являлось Ваше распределение.

Прикиньте теперь весь ужас ситуации, когда студент перво-наперво сделал Колмогорова-Смирнова на малом количестве респондентов, радостно заключил о нормальности и пошёл напропалую пользоваться параметрическими методами? Это ведь ставит под сомнение АБСОЛЮТНО ВСЁ, что он потом получил в работе.

При выборке в несколько десятков (но ощутимо меньше 80) следует говорить лишь об условной нормальности данных, которая оценивается через величины ассиметрии и эксцесса по сравнению с их стандартными ошибками. Если же выборка составляет эдак 20 – здесь просто нет и не может быть нормальности. Никогда. Сразу обращайтесь к непараметрической статистике.

2. Если общая выборка исследования дала нормальное распределение, то дальше можно сравнивать что угодно с чем угодно при помощи параметрических методов.

Необходимость нормального распределения для параметрических методов связана с их опорой на средние значения (и другие параметры распределения). Когда в какой-то группе нет нормального распределения – среднее может быть бессмысленным (среднее чисел 9, 10, 11 и 130 равно 40 – результат не похож ни на одно из усредняемых чисел). А когда нормальность есть – среднее заведомо получится осмысленным.

Соответственно, ПРИ СРАВНЕНИИ ДВУХ групп через средние значения, нужно иметь ДВА осмысленных средних значения. При сравнении трёх – три, и так далее. Нормальное распределение на общей выборке Вам нужно только в том случае, если Вы делаете какие-то выводы об этой общей выборке. А сколько потом групп Вы изучаете параметрическими методами – столько у Вас и должно быть (условно) нормальных распределений.

3. Если получилось нормальное распределение, можно делать дисперсионный анализ.

Дисперсионный анализ как раз-таки мало уязвим к ненормальным распределениям (кроме некоторых частных случаев). Проверка подвыборок на нормальность желательна, но от нарушений нормальности ничего страшного, скорее всего, не случится.

Однако дисперсионный анализ предъявляет ещё два особых требования к данным. Во-первых, не должно быть значимых различий во внутригрупповых дисперсиях (проверяются тестом Ливеня) – это таит серьёзную угрозу, если Ваши группы заметно отличаются по размеру. Во-вторых и в-главных, факторы для многофакторного дисперсионного анализа должны быть независимы друг от друга. Не нарушайте этого условия, не используйте в качестве факторов связанные показатели! Тогда адекватное решение задачи достигается только структурным моделированием, а не дисперсионным анализом.

Чтобы облегчить себе жизнь, для многофакторного дисперсионного анализа лучше всего сразу набирать равномерный комплекс. Равномерный комплекс – это когда на все возможные сочетания факторов приходится одинаковое количество наблюдений (типа: 16 молодых женщин-узбечек, 16 молодых женщин-татарок, 16 молодых женщин-русских, 16 молодых мужчин-узбеков, 16 молодых мужчин-татар, 16 молодых мужчин-русских, 16 пожилых женщин-узбечек, 16 пожилых женщин-татарок, 16 пожилых женщин-русских, 16 пожилых мужчин-узбеков, 16 пожилых мужчин-татар, 16 пожилых мужчин-русских).

5.Корреляционный анализ позволяет выявить взаимосвязь.

Слово «взаимосвязь» регулярно появляется в работах, организация которых не позволяет найти причин и следствий. Студенты обычно в курсе, что корреляция не означает «влияния», это слово они предусмотрительно и заменяют «взаимосвязью».

Задумайтесь уже просто над звучанием слова. Взаимная связь. То есть связь в обе стороны. Если А взаимосвязано с Б – значит, через А происходит какое-то воздействие на Б и одновременно через Б – какое-то воздействие на А. Как Вы думаете, если корреляция не способна подтвердить влияние даже в одну сторону, может ли она подтвердить влияние в обе стороны?

Корреляция показывает НЕ ВЗАИМО-, А ПРОСТО СВЯЗЬ. Вовсе не обязательно двустороннюю. Связь может быть строго односторонней: только X влияет на Y безо всякого обратного воздействия. Или наоборот: только Y влияет на X. Связь может быть действительно взаимной. Она вообще может быть только опосредованной каким-то третьим Z, когда X и Y непосредственно друг на друга не действуют. В учебнике Майерса рассказывается, что высота надгробий высоко коррелирует с количеством прожитых лет, поскольку чем дольше прожил человек, тем больше он разбогател и тем более роскошный памятник закажут его родственники (это касается западных стран, конечно). Корреляция показывает какую-то связь, сама по себе не различая случаев одностороннего влияния, двустороннего влияния, опосредованного влияния. И говорить о «взаимосвязи», имея на руках только корреляцию, не более обоснованно, чем о «влиянии».

На этапе описания статистики ошибка – чисто языковая и легко исправимая. Проблемы возникают, когда на стадии интерпретации человек полагает, что доказал именно взаимосвязь и начинает рассуждать о взаимных отношениях X и Y.