Корреляционный анализ в психологии
Корреляционный метод выступает одним из основных в психологических исследованиях. И это не случайно, ведь психология стремится быть точной наукой. Получается ли?
В чем особенность законов в точных науках. Например, закон тяготения в физике действует без исключений: чем больше масса тела, тем сильнее оно притягивает другие тела. Этот физический закон отражает связь массы тела и силы притяжения.
В психологии иная ситуация. Например, психологи публикуют данные о связи теплых отношений в детстве с родителями и уровня креативности во взрослом возрасте. Означает ли это, что любой из испытуемых с очень теплыми отношениями с родителями в детстве будет иметь очень высокие творческие способности? Ответ однозначный – нет. Здесь нет закона, подобного физическому. Нет механизма влияния детского опыта на креативность взрослых. Это наши фантазии! Есть согласованность данных (отношения – креативность), но за ними нет закона. А есть лишь корреляционная связь. Психологи часто называют выявляемые взаимосвязи психологическими закономерностями, подчеркивая их вероятностный характер – не жесткость.
Пример исследования на студентах из предыдущего раздела хорошо иллюстрирует использование корреляций в психологии:
- Анализ взаимосвязи между психологическими показателями. В нашем примере IQ и успешность общения с противоположным полом – это психологические параметры. Выявление корреляции между ними расширяет представления о психической организации человека, о взаимосвязях между различными сторонами его личности – в данном случае между интеллектом и сферой общения.
- Анализ взаимосвязей IQ с успеваемостью и прыжками – пример связи психологического параметра с непсихологическими. Полученные результаты раскрывают особенности влияния интеллекта на учебную и спортивную деятельность.
Вот как могли выглядеть краткие выводы по результатам придуманного исследования на студентах:
- Выявлена значимая положительная зависимость интеллекта студентов и их успеваемости.
- Существует отрицательная значимая взаимосвязь IQ с успешностью общения с противоположным полом.
- Не выявлено связи IQ студентов с умением прыгать с места.
Таким образом, уровень интеллекта студентов выступает позитивным фактором их академической успеваемости, в то же время негативно сказываясь на отношениях с противоположным полом и не оказывая значимого влияния на спортивные успехи, в частности, способность к прыгать с места.
Как видим, интеллект помогает студентам учиться, но мешает строить отношения с противоположным полом. При этом не влияет на их спортивные успехи.
Неоднозначное влияние интеллекта на личность и деятельность студентов отражает сложность этого феномена в структуре личностных особенностей и важность продолжения исследований в этом направлении. В частности, представляется важным провести анализ взаимосвязей интеллекта с психологическими особенностями и деятельностью студентов с учетом их пола
Расчет коэффициента корреляции в Excel
Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.
Значения показателей x и y:
Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:
Чтобы упростить ее понимание, разобьем на несколько несложных элементов.
Между переменными определяется сильная прямая связь.
Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:
Покажем значения переменных на графике:
Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.
Задание 4. Критерий согласия хи-квадрат.
- Желательно, чтобы общее количество наблюдений было более 20,
- Ожидаемая частота, соответствующая нулевой гипотезе должна быть более 5, если ожидаемое явление принимает значение менее 5, то необходимо использовать точный Критерий Фишера.
- Для четырехпольных таблиц (2х2): Если ожидаемое значение принимает значение менее 10 (а именно 5 <x<10), необходим расчет поправки Йетса таблиц сопряженности
- Сравниваемые частоты должны быть примерно одного размера
- Сопоставляемые группы должны быть независимыми (то есть единицы наблюдения в них разные, в отличие от связанных групп, анализирующих изменения «до-после» у одних и тех единиц наблюдений до и после вмешательства. Для таких ситуаций существует отдельный тест МакНемара (McNemar)
Имея созданную таблицу с соответствующими значение, создаем график. Чтобы провести на нём линию тренда надо нажать на график, а именно на область где строится линия. Сверху в панели инструментов выбрать раздел «Макет», а в нём выбрать «Линия тренда». После этого в контексте данного примера в списке выбираем «Экспоненциальное приближение».
Степень нарушения кровообращения | Выписан с хорошим результатом операции | Выписан с удовлетворительным результатом операции | Выписан с ухудшением |
II | +7 | -4 | -3 |
III | +9 | -12 | +3 |
IV | -16 | +16 | |
Всего |
Задание 4. Критерий согласия хи-квадрат.
Требуется проверить гипотезу о том, что функция распределения выборочных данныхпринадлежит нормальному семейству распределений(экспоненциальному, равномерному семейству).
Пакет Excelпредоставляет возможность вычисления как значений функции надежности, так и значенийp-квантилей хи-квадрат распределения. Эти функции называютсяХИ2РАСПиХИ2ОБР.
Для вычисления нормального распределения можно использовать функцию НОРМРАСП. Подробнее см. ниже в главе “Встроенные функцииExcel”.
Интервалы группировки и частоты попадания в эти интервалы могут быть взяты из задания 2.
Ниже приведен фрагмент листа Excelс примером вычислений, проводимых при построении критерия хи-квадрат для проверки гипотезы нормальности.
Гипотеза нормальности не может быть принята или отвергнута
Скопировать ячейки A2:B11 с листа “Гисто”, содержащие выборочные частоты, на рабочий лист в ячейкиA3:B12.
В столбце C (Вероятность) вычислить значение гипотетической функции распределения:
– напомним, что в ячейках B4иB6на листе “Моменты” хранятся среднее и стандартное отклонение;
скопировать ячейку C3во все ячейки столбцаCвплоть до ячейки, соответствующей последней границе (C11);
в ячейке C2указать значение 0(соответствует), а в ячейкеC12– значение1(соответствует).
В столбце D (Ожидаемые частоты) вычислить теоретические частоты:
скопировать ячейку D3в столбцеDдо ячейкиD12(напротив границы “>125,05”);
для контроля в ячейке D13 (Всего)вычисляется сумма значений в столбцеD(должно получиться число101).
В столбце E (Хи-квадрат)вычислить слагаемые статистики:
в ячейке E15вычислить сумму значений столбцаE– искомое значение статистики.
“10” – это число групп, для каждого студента оно может быть разным.
Вывод в ячейке F11сделан в соответствии с правилом, описанным в пунктеVIIна стр. 36 пособия .
Замечание 1.При проверке гипотезы экспоненциальности необходимо заменить ячейки, в которых вычисляются значения вероятностей попадания в интервалы (пункт 2) в соответствии с формулой экспоненциального распределения
Критический уровень значимости вычисляется при и пристепенях свободы.
Замечание 2.При проверке гипотезы равномерности необходимо, во-первых, выбрать равномерное разбиение отрезка . Во-вторых, нужно заменить ячейки, в которых вычисляются значения вероятностей попадания в интервалы (пункт 2) в соответствии с формулой равномерного распределения (см. введение)
Критический уровень значимости вычисляется при степени свободы.
Выпишите формулу тестовой статистики критерия согласия хи-квадрат. Почему эту статистику можно считать мерой близости выборочных данных к выдвинутой гипотезе?
Какое распределение имеет статистика критерия хи-квадрат?
Почему иногда приходится вычислять два критических уровня значимости?
Чему равен критический уровень значимости при проверке гипотезы о равномерном (нормальном, экспоненциальном) распределении?
Почему при построении критерия хи-квадрат нельзя выбирать интервалы группировки в зависимости от выборочных данных?
Хи-квадрат (χ²): распределение, как его вычислить, примеры — Наука — 2023
Чтобы получить квадратный корень, используйте крышку с (1/2) или 0,5 в качестве экспоненты. Например, чтобы найти квадратный корень из 25, введите в ячейке =25^(1/2) или =25^0,5
Использование MS EXCEL для расчета ковариации
Ковариация близка по смыслу с дисперсией (также является мерой разброса) с тем отличием, что она определена для 2-х переменных, а дисперсия — для одной. Поэтому, cov(x;x)=VAR(x).
Для вычисления ковариации в MS EXCEL (начиная с версии 2010 года) используются функции КОВАРИАЦИЯ.Г() и КОВАРИАЦИЯ.В() . В первом случае формула для вычисления аналогична вышеуказанной (окончание .Г обозначает Генеральная совокупность ), во втором – вместо множителя 1/n используется 1/(n-1), т.е. окончание .В обозначает Выборка .
Примечание : Функция КОВАР() , которая присутствует в MS EXCEL более ранних версий, аналогична функции КОВАРИАЦИЯ.Г() .
Примечание : Функции КОРРЕЛ() и КОВАР() в английской версии представлены как CORREL и COVAR. Функции КОВАРИАЦИЯ.Г() и КОВАРИАЦИЯ.В() как COVARIANCE.P и COVARIANCE.S.
Дополнительные формулы для расчета ковариации :
Эти формулы используют свойство ковариации :
Если переменные x и y независимые, то их ковариация равна 0. Если переменные не являются независимыми, то дисперсия их суммы равна:
VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)
А дисперсия их разности равна
VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)
Дальнейшее чтение
- Обновите критерий хи-квадрат, чтобы использовать собственную таблицу сопряженности.
- Напишите функцию для отчета о независимости данных наблюдений от двух категориальных переменных.
- Загрузите стандартный набор данных машинного обучения, содержащий категориальные переменные, и составьте отчет о независимости каждой из них.
Тест Chi-Squared делает это для таблицы сопряженности, сначала вычисляя ожидаемые частоты для групп, затем определяя, соответствует ли деление групп, называемое наблюдаемыми частотами, ожидаемым частотам.
Полезные сведения → Как объединить ячейки → Как вставить значения → Аргументы функции → Работа с форматами → Функция ЕСЛИ → Как удалить пробелы → Функция впр vlookup→ Работа с таблицами
Как работает функция ПИРСОН в Excel?
Рассмотрим пример расчета корреляции Пирсона между двумя массивами данных при помощи функции PEARSON в MS EXCEL. Первый массив представляет собой значения температур, второй давление в определенный летний период. Пример заполненной таблицы изображен на рисунке:
Пример решения с функцией ПИРСОН при анализе в Excel
- Выберем ячейку С17 в которой должен будет посчитаться критерий Пирсона как результат и нажмем кнопку мастер функций «fx» или комбинацию горячих клавиш (SHIFT+F3). Откроется мастер функций, в поле Категория необходимо выбрать «Статистические». В списке статистических функций выбрать PEARSON и нажать Ok:
В меню аргументов выбрать Массив 1, в примере это утренняя температура воздуха, а затем массив 2 – атмосферное давление.
В результате в ячейке С17 получим коэффициент корреляции Пирсона. В нашем случае он отрицательный и приблизительно равен -0,14.
Данный показатель -0,14 по Пирсону, который вернула функция, говорит об неблагоприятной зависимости температуры и давления в раннее время суток.
Проверка сложных гипотез критерием хи-квадрат Пирсона в EXCEL
history 13 декабря 2016 г.
Рассмотрим применение в MS EXCEL критерия хи-квадрат Пирсона для проверки сложных гипотез.
В случае проверки сложных гипотез мы задаем только форму распределения, параметры распределения, в отличие от простой гипотезы, неизвестны . Из выборки сначала нужно оценить эти неизвестные параметры, затем вычислить статистику Х 2 (та же процедура, что и для простых гипотез).
Примечание : Начать знакомство с критерием согласия Пирсона Х 2 (хи-квадрат) рекомендуется в отношении простых гипотез см. статью Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL .
В случае сложной гипотезы, p-значение , которое мы сравниваем с уровнем значимости , рассчитывается с использованием Х 2 -распределения с L-k-1 степеней свободы, где k – количество оцениваемых параметров.
Если вероятность, того что случайная величина имеющая Х 2 -распределение с L-k-1 степенями свободы примет значение больше вычисленной статистики Х 2 , т.е. Х 2 L-k-1 >Х 2 , меньше уровня значимости , то нулевая гипотеза отклоняется.
Приведем два примера проверки сложных гипотез.
Шаг 3: Давайте сделаем анализ образца:
Здесь мы проанализируем данные образца для вычисления
- Степень свободы
- Ожидаемая частота отсчета переменной образца
- Рассчитать статическое значение критерия хи-квадрат
Все вышеперечисленные значения помогут нам найтиР-значение,
Степень свободы расчета:Давайте вычислим df = (r — 1) * (c — 1), поэтому в данной таблице r (строки) = 2 и c (столбец) = 3
df = (2–1) * (3–1) = 1 * 2 = 2;
Расчет ожидаемой частоты:
Пусть Eij, представляет ожидаемые значения двух переменных, не зависящих друг от друга.
Eij = ih (итоговая строка X итоговая сумма в столбце) / итоговая сумма
Давайте вычислим ожидаемое значение для каждой данной строки и значения столбца, используя вышеупомянутую формулу. Позвольте мне снова скопировать изображение таблицы ниже, чтобы помочь вам сделать расчет легко,
Здесь общее значение строки 1 = 400, общее значение для column1 = 450, общий размер выборки = 1000,
Так ,
E1,1 = (400 * 450) / 1000 = 180000/1000 = 180
Аналогично, давайте рассчитаем другие ожидаемые значения, как показано ниже,
E1,2 = (400 * 450) / 1000 = 180000/1000 = 180E1,3 = (400 * 100) / 1000 = 40000/1000 = 40E2,1 = (600 * 450) / 1000 = 270000/1000 = 270E2,2 = (600 * 450) / 1000 = 270000/1000 = 270E2,3 = (600 * 100) / 1000 = 60000/1000 = 60
Время для вычисления хи-квадратов для каждого вычисленного ожидаемого значения выше по формуле:
Применение хи-квадрат критерия для проверки простых гипотез.
Пусть модель (нулевая гипотеза H
0) заключается в том, что игральная кость является правильной — все грани выпадают одинаково часто с вероятностью p i
=1/6, i
=, M=6. Проведен опыт, который состоял в том, что кость бросили 60 раз (провели N
=60 независимых испытаний). Согласно модели мы ожидаем, что все наблюдаемые частоты O i
появления 1,2,… 6 очков должны быть близки к своим средним значениям E i
=Np i
=60∙(1/6)=10. Согласно H
0 вектор средних частот {E i
}={Np i
}=(10, 10, 10, 10, 10, 10). (Гипотезы, в которых средние частоты полностью известны до начала опыта, называются простыми.) Если бы наблюдаемый вектор {O i
} был равен (34,0,0,0,0,26) , то сразу ясно, что модель неверна – кость не может быть правильной, так как60 раз выпадали только 1 и 6. Вероятность такого события для правильной игральной кости ничтожна: P
= (2/6) 60 =2.4*10 -29 . Однако появление столь явных расхождений между моделью и опытом исключение. Пусть вектор наблюдаемых частот {O i
} равен (5, 15, 6, 14, 4, 16). Согласуется ли это с H
0 ? Итак, нам надо сравнить два вектора частот {E i
} и {O i
}. При этом вектор ожидаемых частот {E i
} не случаен, а вектор наблюдаемых {O i
} случаен – при следующем опыте (в новой серии из 60 бросков) он окажется другим. Полезно ввести геометрическую интерпретацию задачи и считать, что в пространстве частот (в данном случае 6 мерном) даны две точки с координатами(5, 15, 6, 14, 4, 16) и (10, 10, 10, 10, 10, 10). Достаточно ли далеко они удалены друг от друга, чтобы счесть это несовместным сH
0 ? Иными словами нам надо:
- научиться измерять расстояния между частотами (точками пространства частот),
- иметь критерий того, какое расстояние следует считать слишком (“неправдоподобно”) большим, то есть несовместным с H
0 .
Квадрат обычного евклидова расстояниябыл бы равен:
X 2 Euclid =
S
(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2
При этом поверхности X
2 Euclid
= const
всегда являются сферами, если мы фиксируем значения E i
и меняем O i
. Карл Пирсон заметил, что использовать евклидово расстояние в пространстве частот не следует. Так, неправильно считать, что точки (O
=1030 и E
=1000) и (O
=40 и E
=10) находятся на равном расстоянии друг от друга, хотя в обоих случаях разность O
-E
=30. Ведь чем больше ожидаемая частота, тем большие отклонения от нее следует считать возможными. Поэтому точки (O
=1030 и E
=1000) должны считаться “близкими”, а точки (O
=40 и E
=10) “далекими” друг от друга. Можно показать, что если верна гипотеза H
0 , то флуктуации частоты O i
относительно E i
имеют величину порядка квадратного корня(!) из E i
. Поэтому Пирсон предложил при вычислении расстояния возводить в квадраты не разности (O i
-E i
), а нормированные разности (O i
-E i
)/E i
1/2 . Итак, вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния):
X
2 Pearson
= S
((O i
-E i
)/E i
1/2) 2 =S
(O i
-E i
) 2 /E i
В нашем примере:
X
2 Pearson
= (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+(16-10) 2 /10=15.4
Для правильной игральной кости все ожидаемые частоты E i
одинаковы, но обычно они различны, поэтому поверхности, на которых расстояние Пирсона постоянно (X
2 Pearson
=const) оказываются уже эллипсоидами, а не сферами.
Теперь после того, как выбрана формула для подсчета расстояний, необходимо выяснить, какие расстояния следует считать “не слишком большими” (согласующимися с H
0).Так, например, что можно сказать по поводу вычисленного нами расстояния 15.4? В каком проценте случаев (или с какой вероятностью), проводя опыты с правильной игральной костью, мы получали бы расстояние большее, чем 15.4? Если этот процент будет мал (
Пояснение
. Число измерений O i
, попадающих в ячейку таблицы с номером i
, имеет биномиальное распределение с параметрами: m
=Np i
=E i
,σ =(Np i
(1-p i
)) 1/2 , где N
— число измерений (N
»1), p i
– вероятность для одного измерения попасть в данную ячейку (напомним, что измерения независимы и производятся в постоянных условиях). Если p i
мало, то: σ≈(Np i
) 1/2 =E i
и биномиальное распределение близко к пуассоновскому, в котором среднее число наблюдений E i
=λ, а среднее квадратичное отклонение σ=λ 1/2 = E i
1/2 . Для λ≥5пуассоновскоераспределение близко к нормальному N
(m
=E i
=λ, σ=E i
1/2 =λ 1/2), а нормированная величина (O i
— E i
)/E i
1/2 ≈ N
(0,1).
Пирсон определил случайную величину χ
2 n
– “хи-квадрат с n
степенями свободы”, как сумму квадратов n
независимых стандартных нормальных с.в.:
χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,
гдевсе T i = N(0,1) —
н.
о.
р.
с.
в.
Замечания
Аргументы должны быть либо числами, либо содержащими числа именами, массивами или ссылками.
Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки, которые содержат нулевые значения, учитываются.
Если массив1 или массив2 пуст, либо число точек данных в этих массивах не совпадает, функция PEARSON возвращает значение ошибки #Н/Д.
Коэффициента корреляции Пирсона (r) вычисляется по следующей формуле:
где x и y — выборочные средние значения СРЗНАЧ(массив1) и СРЗНАЧ(массив2).
Как рассчитать статистику хи-квадрат
Как только мы узнаем наблюдаемое и ожидаемое количество выборок в каждой ячейке, мы вычисляем статистику хи-квадрат.
Статистика хи-квадрат создается на основе данных по следующей формуле:
Статистика хи-квадрат = Σ / (Ожидаемое число)]
Значение p рассчитывается в Excel по следующей формуле Excel:
Значение p = CHIDIST (статистика хи-квадрат, степени свободы)
Мы берем все образцы и делим их на группы. Эти группы называются корзинами. Мы будем использовать те же интервалы, которые использовались при создании гистограммы в Excel. Бункеры следующие:
Размер значения p определяет, будем ли мы придерживаться предположения о нормальном распределении выборок.
Степень свободы в распределении Чи в квадрате:
Степени свободы в распределении хи-квадрат равны числу суммируемых стандартных нормальных отклонений. Среднее значение распределения хи-квадрат — это его степени свободы. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат единственного стандартного нормального распределения, имеет 1 степень свободы
степени свободы(Д.Ф.илиd) скажу, сколько чисел в вашей сеткена самом деленезависимый. Для сетки хи-квадрат можно сказать, что степенью свободы является количество ячеек, которые необходимо заполнить до этого, учитывая итоги в полях, вы можете заполнить оставшуюся часть сетки, используя формулу.
Степени свободы для сетки хи-квадрат равны числу строк минус один раз, а число столбцов минус один: то есть (R-1) * (C-1).
Помнить!
По мере того как степень свободы (df) увеличивается, распределение хи-квадрат приближается к нормальному распределению
Статистика хи-квадрат:
Формула для статистики хи-квадрат, используемая в тесте хи-квадрат:
Индекс «сВот степени свободы. «ОЭто ваша наблюдаемая ценность иЕваше ожидаемое значение Символ суммирования означает, что вам придется выполнять вычисления для каждого отдельного элемента данных в вашем наборе данных.
E = (общее количество строк × общее количество столбцов) / размер выборки
Статистика хи-квадрат может использоваться только для чисел. Они не могут быть использованы для процентов, пропорций, средних или аналогичных статистических значений. Например, если у вас 10 процентов из 200 человек, вам нужно преобразовать это число (20), прежде чем вы сможете запустить тестовую статистику.
Тест хи-квадрат включает в себя вычисление метрики, называемой статистикой хи-квадрат, упомянутой выше, которая следует за распределением хи-квадрат.
Давайте рассмотрим пример, чтобы получить ясность по всем вышеупомянутым темам, связанным с хи-квадрат:
Проверка гипотезы об однородности выборок
Существует два вида гипотез об однородности выборок. Может быть проверена однородность выборок «в слабом»: выборки однородны «в слабом», если незначимо отличаются их параметры, прежде всего, среднее. Может быть проверена однородность выборок «в сильном»: выборки однородны «в сильном», если незначимо отличаются их законы распределения.
С помощью критерия Стьюдента проверяется гипотеза об однородности выборок «в слабом». В этом случае основная гипотеза формулируется следующим образом: математическое ожидание первой выборки незначимо отличается от математического ожидания второй выборки. Формально это записывается так: .
где μ 1 и μ 2 — математические ожидания первой и второй выборок размерами n 1 и n 2 соответственно (в качестве оценок математических ожиданий берутся значения средних первой и второй выборок);
Критерий может принимать значения от минус бесконечности до плюс бесконечности. Чем ближе значения критерия к нулю, тем больше вероятность, что основная гипотеза будет верной (при этом знак не имеет значения).
При проверке гипотезы об однородности выборок с помощью критерия Стьюдента необходимо помнить, что к выборкам выдвигаются допущение, нарушение которых не позволяет применить критерий:
- выборки должны подчиняться нормальному распределению. Если это требование нарушается, то критерий не будет подчиняться распределению Стьюдента и, следовательно, границы области принятия гипотезы будут найдены неверно;
- в выборках не должны присутствовать резко выделяющиеся наблюдения, иначе среднее значение будет смещено в сторону выбросов и в результате критерий даст некорректный результат.
Пример 6. Имеются данные некоторой выборки. По ним в пакете программных средств STATISTICA вычислены следующие показатели:
Область принятия гипотезы при уровне значимости α = 0,05 : (-2,01; 2,01)
Значение t-критерия попадает в область принятия гипотезы. Может быть принята основная гипотеза о том, что математическое ожидание первой выборки незначимо отличается от математического ожидания второй выборки. Таким образом, проверена гипотеза об однородности выборок в слабом.
С помощью критерия Колмогорова-Смирнова проверяется гипотеза об однородности выборок «в сильном», то есть о том, что функции распределения выборок незначимо отличаются друг от друга. За основу критерия Колмогорова-Смирнова выступает статистика
максимальная по модулю разность между двумя функциями распределения выборок x и y.
Границы области принятия гипотезы определяются следующим образом:
Если критерий принадлежит области принятия гипотезы, то при заданном уровне значимости α нет возможности её отвергнуть, следовательно, принимается гипотеза о том, что выборки однородны «в сильном».
Гипотезы об однородности выборок могут быть выдвинуты как в исследованиях поведения человека, так и технических науках.
Пример 7. По данным некоторой выборки получены следующие показатели:
Область принятия гипотезы при уровне значимости α = 0,05 : (0; 0,189)
Значение критерия попадает в область принятия гипотезы. Следовательно, принимается основная гипотеза о том, что функции распределения двух выборок незначимо отличаются. Таким образом, выборки однородны «в сильном».
Применение хи-квадрат критерия для проверки сложных гипотез
В примерах с правильной игральной костью и монетой ожидаемые частоты можно было определить до(!) проведения опыта. Подобные гипотезы называются “простыми”. На практике чаще встречаются “сложные гипотезы”. При этом для того, чтобы найти ожидаемые частоты E i
надо предварительно оценить одну или несколько величин (параметры модели), и сделать это можно только, воспользовавшись данными опыта. В результате для “сложных гипотез” ожидаемые частоты E i
оказываются зависящими от наблюдаемых частот O i
и потому сами становятся случайными величинами, меняющимися в зависимости от результатов опыта. В процессе подбора параметров расстояние Пирсона уменьшается – параметры подбираются так, чтобы улучшить согласие модели и опыта. Поэтому число степеней свободы должно уменьшаться.
Как оценить параметры модели? Есть много разных способов оценки – “метод максимального правдоподобия”, “метод моментов”, “метод подстановки”. Однако можно не привлекать никаких дополнительных средств и найти оценки параметров минимизируя расстояние Пирсона. В докомпьютерную эпоху такой подход использовался редко: приручных расчетах он неудобен и, как правило, не поддается аналитическому решению. При расчетах на компьютере численная минимизация обычно легко осуществляется, а преимуществом такого способа является его универсальность. Итак, согласно “методу минимизации хи-квадрат”, мы подбираем значения неизвестных параметров так, чтобы расстояние Пирсона стало наименьшим. (Кстати, изучая изменения этого расстояния при небольших смещениях относительно найденного минимума можно оценить меру точности оценки: построить доверительные интервалы.) После того как параметры и само это минимальное расстояние найдено опять требуется ответить на вопрос достаточно ли оно мало.
Общая последовательность действий такова:
- Выбор модели (гипотезы H
0). - Выбор разрядов и определение вектора наблюдаемых частот O i
. - Оценка неизвестных параметров модели и построение для них доверительных интервалов (например, через поиск минимума расстояния Пирсона).
- Вычисление ожидаемых частот E i
. - Сравнение найденной величины расстояния Пирсона X
2 с критическим значением хи-квадрат χ
2 крит — наибольшим, которое еще рассматривается как правдоподобное, совместимое с H
0 . Величину, χ
2 крит мы находим из таблиц, решая уравнение
P
(χ
2 n
> χ
2 крит)=1-α,
где α – “уровень значимости” или ”размер критерия” или “величина ошибки первого рода” (типичное значение α=0.05).
Обычно число степеней свободы n
вычисляют по формуле
n
= (число разрядов) – 1 – (число оцениваемых параметров)
Если X
2 > χ
2 крит, то гипотеза H
0 отвергается, в противном случае принимается. В α∙100% случаев (то есть достаточно редко) такой способ проверки H
0 приведет к “ошибке первого рода”: гипотеза H
0 будет отвергнута ошибочно.
Пример.
При исследовании 10 серий из 100 семян подсчитывалось число зараженных мухой-зеленоглазкой. Получены данные: O i
=(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);
Здесь неизвестен заранее вектор ожидаемых частот. Если данные однородны и получены для биномиального распределения, то неизвестен один параметр доля p
зараженных семян. Заметим, что в исходной таблице фактически имеется не 10 а 20 частот, удовлетворяющих 10 связям: 16+84=100, … 21+79=100.
X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+
(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))
Объединяя слагаемые в пары (как в примере с монетой), получаем ту форму записи критерия Пирсона, которую обычно пишут сразу:
X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).
Теперь если в качестве метода оценки р использовать минимум расстояния Пирсона, то необходимо найти такое p
, при котором X
2 =min
. (Модель старается по возможности “подстроиться” под данные эксперимента.)
Критерий Пирсона — это наиболее универсальный из всех используемых в статистике. Его можно применять к одномерным и многомерным данным, количественным и качественным признакам. Однако именно в силу универсальности следует быть осторожным, чтобы не совершить ошибки.
Расчет CDF
Мы можем получить площадь нормальной кривой по каждому бину с помощью функции совокупного распределения (CDF). CDF в любой точке оси x — это общая площадь под кривой слева от этой точки. Мы можем получить процент площади нормальной кривой для каждого бина, вычитая CDF при значении x нижней границы интервала из CDF при значении x верхней границы интервала.
Нормальное распределение, которое мы пытаемся сопоставить с данными, имеет в качестве своих двух и единственных параметров среднее значение выборки и стандартное отклонение.
CDF этого нормального распределения в любой точке оси x можно определить по следующей формуле Excel:
CDF = НОРМРАСП (x значение, среднее значение выборки, стандартное отклонение выборки, ИСТИНА)
Еще раз, эта формула вычисляет CDF для этого значения x, которое представляет собой площадь под нормальной кривой слева от значения x. Эта нормальная кривая имеет в качестве параметров среднее значение выборки и стандартное отклонение.