Хи квадрат как считать эксель

Коэффициент корреляции пирсона: онлайн калькулятор

Для чего нужен коэффициент корреляции?

Данный статистический показатель позволяет не только проверить предположение о существовании линейной взаимосвязи между признаками, но и установить ее силу.

Случайные величины, связанные между собой, могут иметь совершенно разную природу этой связи. Не обязательно она будет функциональной, случай, когда прослеживается прямая зависимость между величинами. Чаще всего на обе величины действует целая совокупность разнообразных факторов, в случаях, когда они являются общими для обеих величин, наблюдается формирование связанных закономерностей.

Это значит, что доказанный статистически факт наличия связи между величинами не является подтверждением того, что установлена причина наблюдаемых изменений. Как правило, исследователь делает вывод о наличии двух взаимосвязанных следствий.

Правило принятия решения

Если результирующее значение p меньше уровня значимости, мы отклоняем нулевую гипотезу и заявляем, что мы не можем утверждать в пределах требуемой степени достоверности, что данные распространяются нормально. Другими словами, если мы хотим заявить с точностью до 95%, что данные могут быть описаны нормальным распределением, уровень значимости составляет 5%. Уровень значимости = 1 — требуемая степень достоверности. Если результирующее значение p превышает 0,05, мы можем утверждать с уверенностью не менее 95%, что данные распределены нормально.

Разбиение нормальной кривой на области

Для проверки согласия по критерию хи-квадрат требуется, чтобы нормальное распределение было разбито на части. В каждом разделе мы подсчитываем, сколько происходит. Это наш наблюдаемый # для каждого раздела. Функция гистограммы Excel уже сделала это за нас. Еще раз, вот результат гистограммы Excel:

Когда мы создавали гистограмму Excel из данных, нам нужно было указать, на сколько «ячеек» будут разделены образцы. Excel подсчитал количество наблюдаемых образцов в каждой ячейке, а затем нанес результаты на гистограмму выше.

Поскольку Excel уже подсчитал, сколько наблюдаемых образцов находится в каждой ячейке, мы также будем использовать эти ячейки в качестве разделов для теста соответствия критериям критерия хи-квадрат. Мы знаем, сколько реальных образцов было обнаружено в каждом бункере. Теперь нам нужно подсчитать, сколько выборок должно было появиться в каждом бункере.

Расчет ожидаемого количества образцов в каждой ячейке

Размер каждого бункера определяет, сколько выборок должно было быть в этом бункере. Каждая ячейка представляет собой процент от общей площади под кривой распределения, которую мы оцениваем. Этот процент от общей площади, связанный с ячейкой, представляет собой вероятность того, что каждая наблюдаемая выборка будет взята из этой ячейки.

Вот простой пример, который, надеюсь, прояснит предыдущий абзац. Если бы мы оценивали набор данных на предмет нормальности, мы бы попытались определить, соответствуют ли данные нормальной кривой. Мы должны определить, на какие диапазоны бинов мы будем делить данные. Простейшим способом размещения ячеек было бы размещение всех данных только в двух ячейках по обе стороны от среднего значения выборки. Если бы данные были распределены нормально, можно было бы ожидать, что половина выборок будет приходиться на каждую ячейку.

Другими словами, если бы ячейки были размещены вдоль оси x относительно среднего значения выборки, так что каждая ячейка была бы непосредственно под 50% нормальной кривой с тем же средним значением, тогда мы могли бы ожидать, что 50% выборок будут встречаться в каждой. мусорное ведро. Если бы было отобрано всего 60 образцов, мы ожидали бы, что в каждом бункере будет 30 образцов.

Ожидаемое количество выборок для одного бункера = Exp.

Exp. = (Площадь под нормальной кривой над верхней частью бункера) x (Общее количество образцов)

Расчет CDF

Мы можем получить площадь нормальной кривой по каждому бину с помощью функции совокупного распределения (CDF). CDF в любой точке оси x — это общая площадь под кривой слева от этой точки. Мы можем получить процент площади нормальной кривой для каждого бина, вычитая CDF при значении x нижней границы интервала из CDF при значении x верхней границы интервала.

Нормальное распределение, которое мы пытаемся сопоставить с данными, имеет в качестве своих двух и единственных параметров среднее значение выборки и стандартное отклонение.

CDF этого нормального распределения в любой точке оси x можно определить по следующей формуле Excel:

CDF = НОРМРАСП (x значение, среднее значение выборки, стандартное отклонение выборки, ИСТИНА)

Еще раз, эта формула вычисляет CDF для этого значения x, которое представляет собой площадь под нормальной кривой слева от значения x. Эта нормальная кривая имеет в качестве параметров среднее значение выборки и стандартное отклонение.

Как выполнить критерий независимости хи-квадрат в Excel

В первой части этого руководства я покажу вам, как вручную выполнить тест хи-квадрат в Excel, включая расчет статистики хи-квадрат и значения p.

В последней части руководства я опишу, как использовать функцию Excel (CHISQ.TEST) для быстрого вычисления p-значения на основе наблюдаемых и ожидаемых значений.

1. Вычислить строку, столбец и общие итоги

Первый шаг к выполнению теста хи-квадрат – суммирование всех строк и столбцов таблицы непредвиденных обстоятельств с помощью функции СУММ.

Итак, чтобы вычислить общее количество в столбце курильщиков, я буду использовать следующую формулу в новой ячейке.

Итак, всего было 45 курильщиков.

Теперь мне нужно повторить этот процесс для следующего столбца, а также строк в моей таблице. Кроме того, вам необходимо рассчитать общую сумму из таблицы.

На изображении ниже показаны все формулы, использованные в моем примере.

2. Рассчитать ожидаемые значения

Двигаясь дальше, вам нужно вычислить ожидаемое значение для каждой записи в таблице.

Чтобы вычислить ожидаемое значение, необходимо умножить сумму каждой строки на сумму каждого столбца и разделить полученный ответ на общую сумму.

Чтобы вычислить ожидаемое количество курящих мужчин в моем примере, я буду использовать следующую формулу.

Итак, в моем примере ожидаемое количество курящих мужчин составило 22,5.

Опять же, этот процесс необходимо повторить для всех записей в таблице непредвиденных обстоятельств.

3. Вычислить разницу между наблюдаемыми и ожидаемыми значениями

Следующий шаг — вычесть каждое из ожидаемых значений из наблюдаемых, возвести их в квадрат, а затем разделить результат на ожидаемое значение.

Итак, в моем примере я буду использовать следующую формулу для курящих мужчин.

Этот процесс необходимо повторить для остальных записей в таблице.

4. Рассчитать статистику хи-квадрат

Далее нам нужно рассчитать статистику хи-квадрат.

Для этого просто сложите все значения, недавно рассчитанные на шаге 3.

В моем примере я буду использовать следующую формулу.

Итак, статистика хи-квадрат для моего примера при округлении составила 4,85.

5. Вычислить степени свободы

Далее нам нужно вычислить степени свободы.

Здесь степени свободы вычисляются путем вычитания 1 из количества строк в тесте и умножения этого результата на количество столбцов в тесте с вычитанием 1.

Итак, для моего примера у меня есть 2 строки и 2 столбца. Это означает, что для определения степеней свободы я использую следующий расчет (вы можете просто выполнить это вручную, так как это очень простая математика).

Что дает ответ 1. Итак, в этом примере степень свободы равна 1.

6. Рассчитать p-значение

Последний шаг в выполнении теста хи-квадрат – получение статистики хи-квадрат и значений степеней свободы, а затем вычисление p-значения.

Чтобы сделать это в Excel, вы можете использовать функцию ХИ.РАСП.ВУ.

  • x – ячейка, содержащая значение хи-квадрат.
  • deg_freedom — ячейка, содержащая значение степеней свободы.

В моем примере при округлении я получаю значение p, равное 0,028.

7. Используйте функцию CHISQ.TEST для расчета p-значения

Существует функция, которую можно использовать для вычисления p-значения хи-квадрат, просто используя наблюдаемые и ожидаемые табличные значения.

Для этого используйте функцию CHISQ.TEST.

  • Фактический диапазон – ячейки, содержащие наблюдаемые значения.
  • Ожидаемый диапазон – ячейки, содержащие ожидаемые значения.

Когда используется тест хи-квадрат?

Тест хи-квадрат применяется к переменным, которые описывают такие качества, как пол, семейное положение, группа крови, цвет глаз и предпочтения различных типов.

Тест предназначен, если вы хотите:

-Проверьте, подходит ли распределение для описания переменной, которая называетсястепень соответствия. Используя критерий хи-квадрат, можно узнать, есть ли существенные различия между выбранным теоретическим распределением и наблюдаемым распределением частот.

-Узнать, независимы ли две переменные X и Y со статистической точки зрения. Это известно как тест на независимость.

Поскольку он применяется к качественным или категориальным переменным, тест хи-квадрат широко используется в социальных науках, менеджменте и медицине.

Применение хи-квадрат критерия для проверки простых гипотез.

Пусть модель (нулевая гипотеза H
0) заключается в том, что игральная кость является правильной — все грани выпадают одинаково часто с вероятностью p i
=1/6, i
=, M=6. Проведен опыт, который состоял в том, что кость бросили 60 раз (провели N
=60 независимых испытаний). Согласно модели мы ожидаем, что все наблюдаемые частоты O i
появления 1,2,… 6 очков должны быть близки к своим средним значениям E i
=Np i
=60∙(1/6)=10. Согласно H
0 вектор средних частот {E i
}={Np i
}=(10, 10, 10, 10, 10, 10). (Гипотезы, в которых средние частоты полностью известны до начала опыта, называются простыми.) Если бы наблюдаемый вектор {O i
} был равен (34,0,0,0,0,26) , то сразу ясно, что модель неверна – кость не может быть правильной, так как60 раз выпадали только 1 и 6. Вероятность такого события для правильной игральной кости ничтожна: P
= (2/6) 60 =2.4*10 -29 . Однако появление столь явных расхождений между моделью и опытом исключение. Пусть вектор наблюдаемых частот {O i
} равен (5, 15, 6, 14, 4, 16). Согласуется ли это с H
0 ? Итак, нам надо сравнить два вектора частот {E i
} и {O i
}. При этом вектор ожидаемых частот {E i
} не случаен, а вектор наблюдаемых {O i
} случаен – при следующем опыте (в новой серии из 60 бросков) он окажется другим. Полезно ввести геометрическую интерпретацию задачи и считать, что в пространстве частот (в данном случае 6 мерном) даны две точки с координатами(5, 15, 6, 14, 4, 16) и (10, 10, 10, 10, 10, 10). Достаточно ли далеко они удалены друг от друга, чтобы счесть это несовместным сH
0 ? Иными словами нам надо:

  1. научиться измерять расстояния между частотами (точками пространства частот),
  2. иметь критерий того, какое расстояние следует считать слишком (“неправдоподобно”) большим, то есть несовместным с H
    0 .

Квадрат обычного евклидова расстояниябыл бы равен:

X 2 Euclid =
S

(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

При этом поверхности X
2 Euclid
= const
всегда являются сферами, если мы фиксируем значения E i
и меняем O i
. Карл Пирсон заметил, что использовать евклидово расстояние в пространстве частот не следует. Так, неправильно считать, что точки (O
=1030 и E
=1000) и (O
=40 и E
=10) находятся на равном расстоянии друг от друга, хотя в обоих случаях разность O
-E
=30. Ведь чем больше ожидаемая частота, тем большие отклонения от нее следует считать возможными. Поэтому точки (O
=1030 и E
=1000) должны считаться “близкими”, а точки (O
=40 и E
=10) “далекими” друг от друга. Можно показать, что если верна гипотеза H
0 , то флуктуации частоты O i
относительно E i
имеют величину порядка квадратного корня(!) из E i
. Поэтому Пирсон предложил при вычислении расстояния возводить в квадраты не разности (O i
-E i
), а нормированные разности (O i
-E i
)/E i
1/2 . Итак, вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния):

X
2 Pearson
= S

((O i
-E i
)/E i
1/2) 2 =S

(O i
-E i
) 2 /E i

В нашем примере:

X
2 Pearson
= (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+(16-10) 2 /10=15.4

Для правильной игральной кости все ожидаемые частоты E i
одинаковы, но обычно они различны, поэтому поверхности, на которых расстояние Пирсона постоянно (X
2 Pearson
=const) оказываются уже эллипсоидами, а не сферами.

Теперь после того, как выбрана формула для подсчета расстояний, необходимо выяснить, какие расстояния следует считать “не слишком большими” (согласующимися с H
0).Так, например, что можно сказать по поводу вычисленного нами расстояния 15.4? В каком проценте случаев (или с какой вероятностью), проводя опыты с правильной игральной костью, мы получали бы расстояние большее, чем 15.4? Если этот процент будет мал (

Пояснение
. Число измерений O i
, попадающих в ячейку таблицы с номером i
, имеет биномиальное распределение с параметрами: m
=Np i
=E i
,σ =(Np i
(1-p i
)) 1/2 , где N
— число измерений (N
»1), p i
– вероятность для одного измерения попасть в данную ячейку (напомним, что измерения независимы и производятся в постоянных условиях). Если p i
мало, то: σ≈(Np i
) 1/2 =E i
и биномиальное распределение близко к пуассоновскому, в котором среднее число наблюдений E i
=λ, а среднее квадратичное отклонение σ=λ 1/2 = E i
1/2 . Для λ≥5пуассоновскоераспределение близко к нормальному N
(m
=E i
=λ, σ=E i
1/2 =λ 1/2), а нормированная величина (O i
— E i
)/E i
1/2 ≈ N
(0,1).

Пирсон определил случайную величину χ
2 n
– “хи-квадрат с n
степенями свободы”, как сумму квадратов n
независимых стандартных нормальных с.в.:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,
гдевсе T i = N(0,1) —

н.
о.
р.
с.
в.

Функция ПИРСОН расчета коэффициента корреляции Пирсона в Excel

Функция ПИРСОН (вводить следует PEARSON на английском) предназначена для вычисления коэффициента корреляции Пирсона r. Данную функцию используют в работе в том случае, когда необходимо отразить степень линейной зависимости между двумя массивами данных. В Excel имеется несколько функций с помощью которых можно получить такой же результат, однако универсальность и простота функции Пирсон делают выбор в ее пользу.

Как работает функция ПИРСОН в Excel?

Рассмотрим пример расчета корреляции Пирсона между двумя массивами данных при помощи функции PEARSON в MS EXCEL. Первый массив представляет собой значения температур, второй давление в определенный летний период. Пример заполненной таблицы изображен на рисунке:

Задача следующая: необходимо определить взаимосвязь между температурой и давлением за июнь месяц.

Пример решения с функцией ПИРСОН при анализе в Excel

  1. Выберем ячейку С17 в которой должен будет посчитаться критерий Пирсона как результат и нажмем кнопку мастер функций «fx» или комбинацию горячих клавиш (SHIFT+F3). Откроется мастер функций, в поле Категория необходимо выбрать «Статистические». В списке статистических функций выбрать PEARSON и нажать Ok:
  2. В меню аргументов выбрать Массив 1, в примере это утренняя температура воздуха, а затем массив 2 – атмосферное давление.
  3. В результате в ячейке С17 получим коэффициент корреляции Пирсона. В нашем случае он отрицательный и приблизительно равен -0,14.

Данный показатель -0,14 по Пирсону, который вернула функция, говорит об неблагоприятной зависимости температуры и давления в раннее время суток.



Функция ПИРСОН пошаговая инструкция

Коэффициент корреляции является самым удобным показателем сопряженности количественных признаков.

Задача: Определить линейный коэффициент корреляции Пирсона.

Пример решения:

  1. В таблице приведены данные для группы курящих людей. Первый массив х — представляет собой возраст курящего, второй массив y представляет собой количество сигарет, выкуренных в день.
  2. Выберем ячейку В4 в которой должен будет посчитаться результат и нажмем кнопку мастер функций fx (SHIFT+F3).
  3. В группе Статистические выберем функцию PEARSON.
  4. Выделим Массив 1 – возраст курящего, затем Массив 2 – число сигарет, выкуренных в день.
  5. Нажмем кнопку ОК и увидим критерий нормального распределения Пирсона в ячейке В4.

Таким образом, по результату вычисления статистическим выводом эксперимента выявлена отрицательная зависимость между возрастом и количеством выкуренных сигарет в день.

Корреляционный анализ по Пирсону в Excel

Задача: школьникам были даны тесты на наглядное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач?

Пример решения: представим исходные данные в виде таблицы:

  1. Переходим курсором в ячейку F2. Откроем мастер функций fx (SHIFT+F3) или вводим вручную.
  2. Выберем функцию PEARSON.
  3. Выделим мышкой Массив1, затем Массив 2.
  4. Нажмем ОК и в ячейке F2 получим критерий согласия Пирсона.

Интерпретация результата вычисления по Пирсону

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 – являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 – следовательно, произошла ошибка в вычислениях.

Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными.

Скачать примеры функции ПИРСОН для корреляции в Excel

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратно пропорциональной зависимости

Эти положения очень важно четко усвоить для правильной интерпретации полученной корреляционной зависимости

Что нужно помнить о формуле CHISQ.TEST

Предлагаемые чтения:

Что такое критерий согласия Хи-квадрат?

Это похоже на критерий независимости Хи-квадрат. Но, в отличие от теста на независимость, мы сравниваем наблюдаемые частоты в выборке с наблюдаемыми частотами в совокупности одной и той же переменной. Этот тест используется для определения наличия ошибки выборки в эксперименте.

Что означает значение p в тесте хи-квадрат?

P-значение представляет собой вероятность того, что отклонение значений между переменными произошло по чистой случайности. Более высокое значение p означает, что отклонение в значениях можно объяснить простой случайностью, а взаимосвязь между переменными незначительна.

Пример 2

Задача о бомбардировках Лондона .
Задача возникла в связи с бомбардировками Лондона во время Второй мировой войны. Для улучшения организации оборонительных мероприятий, необходимо было понять цель противника. Для этого территорию города условно разделили сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. В течении некторого времени в центре организации обороны города собиралась информация о количестве попаданий снарядов в каждый из участков. В итоге были получены следующие данные:

Число попаданий 1 2 3 4 5 6 7
Количество участков 229 211 93 35 7 1

Гипотеза : стрельба случайна (нет «целевых» участков).

Закон редких событий (распределение Пуассона)

, где S — число попаданий, .

Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем:

Число попаданий 1 2 3 4-7
Количество участков 229 211 93 35 8

, тогда при гипотеза верна.

Краткое описание теста

Мы разделяем наблюдаемые образцы на группы, которые имеют те же границы, что и интервалы, которые были установлены при создании гистограммы в Excel. В этом случае наблюдаемые образцы попадали в следующие ячейки:

  • От 3 до 4 — 1 образец имел значение в этом диапазоне
  • От 4 до 5 — 1 образец имел значение в этом диапазоне
  • От 5 до 6 — 2 образца имели значение в этом диапазоне
  • От 6 до 7 — 4 образца имели значение в этом диапазоне
  • От 7 до 8 — 6 образцов имели значение в этом диапазоне
  • От 8 до 9 — 7 образцов имели значение в этом диапазоне
  • От 9 до 10 — 7 образцов имели значение в этом диапазоне
  • От 10 до 11 — 4 образца имели значение в этом диапазоне
  • От 11 до 12 — 4 образца имели значение в этом диапазоне
  • От 12 до 13 — 3 образца имели значение в этом диапазоне
  • От 13 до 14 — 1 образец имел значение в этом диапазоне

Цифры выше представляют наблюдаемое количество образцов в каждом диапазоне бинов. Теперь нам нужно рассчитать, сколько выборок мы ожидаем встретить в каждой ячейке, если бы выборка была нормально распределена с тем же средним значением и стандартным отклонением, что и взятая выборка (среднее значение = 8,634 и стандартное отклонение = 2,5454).

Ожидаемое количество образцов в каждой ячейке рассчитывается по следующей формуле:

(Площадь нормальной кривой, ограниченная верхней и нижней границами бина) x (Общее количество взятых образцов)

Например, если есть только 2 интервала, которые пересекаются в среднем, то соответствующая нормальная кривая будет иметь 2 области с границей в среднем значении нормальной кривой. Каждая из двух областей нормальной кривой будет содержать 50% площади под всей нормальной кривой. Следовательно, можно ожидать, что 50% от общего числа взятых проб попадет в каждую ячейку. Если, например, было взято 42 образца, можно было бы ожидать, что в каждом бункере будет 21 выборка, если бы образцы были распределены нормально.

Учитывая диапазоны бинов, которые мы установили для гистограммы Excel, и количество наблюдаемых выборок в каждой ячейке, теперь нам нужно вычислить количество выборок, которые мы ожидаем найти в каждой ячейке. Мы предполагаем, что образцы обычно распределяются с тем же средним значением и стандартным отклонением, как измерено для фактического образца. Учитывая эти предположения, мы используем метод, описанный выше, чтобы вычислить, сколько выборок ожидается в каждой ячейке.

Проверка гипотезы

Распределение хи-квадрат

В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:

, гипотеза выполняется.

(попадает в левый «хвост» распределения). Следовательно, теоретические и практические значения очень близки. Если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка и гипотеза : выборка распределена равномерно на , тогда генератор нельзя называть случайным (гипотеза случайности не выполняется), т.к. выборка распределена слишком равномерно, но гипотеза выполняется.

(попадает в правый «хвост» распределения) гипотеза отвергается.

Оценка статистической значимости коэффициента корреляции

При проверке значимости коэффициента корреляции нулевая гипотеза состоит в том, что коэффициент корреляции равен нулю, альтернативная — не равен нулю (про проверку гипотез см. статью Проверка гипотез ).

Для того чтобы проверить гипотезу, мы должны знать распределение случайной величины, т.е. коэффициента корреляции r. Обычно, проверку гипотезы осуществляют не для r, а для случайной величины t r :

которая имеет распределение Стьюдента с n-2 степенями свободы.

Если вычисленное значение случайной величины |t r | больше, чем критическое значение t α,n-2 (α- заданный уровень значимости ), то нулевую гипотезу отклоняют (взаимосвязь величин является статистически значимой).

Расчет коэффициента корреляции в Excel

Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.

Значения показателей x и y:

Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:

Чтобы упростить ее понимание, разобьем на несколько несложных элементов.

Между переменными определяется сильная прямая связь.

Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:

Покажем значения переменных на графике:

Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.

Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL

Рассмотрим применение в MS EXCEL критерия хи-квадрат Пирсона для проверки простых гипотез.

После получения экспериментальных данных (т.е. когда имеется некая выборка) обычно производится выбор закона распределения, наиболее хорошо описывающего случайную величину, представленную данной выборкой.

Проверка того, насколько хорошо экспериментальные данные описываются выбранным теоретическим законом распределения, осуществляется с использованием критериев согласия.

Нулевой гипотезой, обычно выступает гипотеза о равенстве распределения случайной величины некоторому теоретическому закону.

Сначала рассмотрим применение критерия согласия Пирсона Х2 (хи-квадрат) в отношении простых гипотез (параметры теоретического распределения считаются известными). Затем – применение критерияв случае сложных гипотез, когда задается только форма распределения, а параметры этого распределения и значение статистики Х2 оцениваются/рассчитываются на основании одной и той же выборки.

Примечание: Применение критерия согласия Пирсона Х2 в отношении сложных гипотез см. статью Проверка сложных гипотез критерием хи-квадрат Пирсона в MS EXCEL.

Примечание: В англоязычной литературе процедура применения критерия согласия Пирсона Х2 имеет название The chi-square goodness of fit test.

Напомним процедуру проверки гипотез:

  • на основе выборки вычисляется значение статистики, которая соответствует типу проверяемой гипотезы. Например, для проверки гипотезы о равенстве среднего μ некоторому заданному значению μ0 используется t-статистика (если стандартное отклонение не известно);
  • при условии истинности нулевой гипотезы, распределение этой статистики известно и может быть использовано для вычисления вероятностей (например, для t-статистики это распределение Стьюдента);
  • вычисленное на основе выборки значение статистики сравнивается с критическим для заданного уровня значимости значением (α-квантилем);
  • нулевую гипотезу отвергают, если значение статистики больше критического (или если вероятность получить это значение статистики (p-значение) меньше уровня значимости, что является эквивалентным подходом).

Проведем проверку гипотез для различных распределений.

Расчет доверительного интервала для коэффициента корреляции в Excel

В Эксель нет готовых функций для расчета доверительного интервала коэффициента корреляции, как для средней арифметической. Поэтому план такой:

— Делаем преобразование Фишера для r. — На основе нормальной модели рассчитываем доверительный интервал для z.— Делаем обратное преобразование Фишера из z в r.

Удивительно, но для преобразования Фишера в Excel есть специальная функция ФИШЕР.

Стандартная ошибка z легко подсчитывается с помощью формулы.

Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.

Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.

Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.

Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.

Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.

Надо пояснить, что значит значимая корреляция. Коэффициент корреляции статистически значим, если его доверительный интервал не включает 0, то есть истинное значение по генеральной совокупности наверняка имеет тот же знак, что и выборочная оценка.

Example data

Let’s say I have a sample of 200 people that visited my local pub. From these 200 participants, half were male and half were female.

I asked each participant if they were a smoker or non-smoker. Here are my results:

Smokers Non-smokers
Male 29 71
Female 16 84

So, there were 29 males that smoked, and 71 that didn’t. For the females, there were 16 smokers and 84 non-smokers. Since these are the actual values from my experiment, they are known as the observed values.

What I want to do is to perform a chi-square test of independence to see if there is an association between gender and smoking status in my sample.

Применение хи-квадрат критерия для проверки сложных гипотез

В примерах с правильной игральной костью и монетой ожидаемые частоты можно было определить до(!) проведения опыта. Подобные гипотезы называются “простыми”. На практике чаще встречаются “сложные гипотезы”. При этом для того, чтобы найти ожидаемые частоты E i
надо предварительно оценить одну или несколько величин (параметры модели), и сделать это можно только, воспользовавшись данными опыта. В результате для “сложных гипотез” ожидаемые частоты E i
оказываются зависящими от наблюдаемых частот O i
и потому сами становятся случайными величинами, меняющимися в зависимости от результатов опыта. В процессе подбора параметров расстояние Пирсона уменьшается – параметры подбираются так, чтобы улучшить согласие модели и опыта. Поэтому число степеней свободы должно уменьшаться.

Как оценить параметры модели? Есть много разных способов оценки – “метод максимального правдоподобия”, “метод моментов”, “метод подстановки”. Однако можно не привлекать никаких дополнительных средств и найти оценки параметров минимизируя расстояние Пирсона. В докомпьютерную эпоху такой подход использовался редко: приручных расчетах он неудобен и, как правило, не поддается аналитическому решению. При расчетах на компьютере численная минимизация обычно легко осуществляется, а преимуществом такого способа является его универсальность. Итак, согласно “методу минимизации хи-квадрат”, мы подбираем значения неизвестных параметров так, чтобы расстояние Пирсона стало наименьшим. (Кстати, изучая изменения этого расстояния при небольших смещениях относительно найденного минимума можно оценить меру точности оценки: построить доверительные интервалы.) После того как параметры и само это минимальное расстояние найдено опять требуется ответить на вопрос достаточно ли оно мало.

Общая последовательность действий такова:

  1. Выбор модели (гипотезы H
    0).
  2. Выбор разрядов и определение вектора наблюдаемых частот O i
    .
  3. Оценка неизвестных параметров модели и построение для них доверительных интервалов (например, через поиск минимума расстояния Пирсона).
  4. Вычисление ожидаемых частот E i
    .
  5. Сравнение найденной величины расстояния Пирсона X
    2 с критическим значением хи-квадрат χ
    2 крит — наибольшим, которое еще рассматривается как правдоподобное, совместимое с H
    0 . Величину, χ
    2 крит мы находим из таблиц, решая уравнение

P

2 n
> χ
2 крит)=1-α,

где α – “уровень значимости” или ”размер критерия” или “величина ошибки первого рода” (типичное значение α=0.05).

Обычно число степеней свободы n
вычисляют по формуле

n
= (число разрядов) – 1 – (число оцениваемых параметров)

Если X
2 > χ
2 крит, то гипотеза H
0 отвергается, в противном случае принимается. В α∙100% случаев (то есть достаточно редко) такой способ проверки H
0 приведет к “ошибке первого рода”: гипотеза H
0 будет отвергнута ошибочно.

Пример.
При исследовании 10 серий из 100 семян подсчитывалось число зараженных мухой-зеленоглазкой. Получены данные: O i
=(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Здесь неизвестен заранее вектор ожидаемых частот. Если данные однородны и получены для биномиального распределения, то неизвестен один параметр доля p
зараженных семян. Заметим, что в исходной таблице фактически имеется не 10 а 20 частот, удовлетворяющих 10 связям: 16+84=100, … 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Объединяя слагаемые в пары (как в примере с монетой), получаем ту форму записи критерия Пирсона, которую обычно пишут сразу:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Теперь если в качестве метода оценки р использовать минимум расстояния Пирсона, то необходимо найти такое p
, при котором X
2 =min
. (Модель старается по возможности “подстроиться” под данные эксперимента.)

Критерий Пирсона — это наиболее универсальный из всех используемых в статистике. Его можно применять к одномерным и многомерным данным, количественным и качественным признакам. Однако именно в силу универсальности следует быть осторожным, чтобы не совершить ошибки.

Функция ХИ2.ОБР

В этой статье описаны синтаксис формулы и использование функции ХИ2.ОБР в Microsoft Excel.

Возвращает значение, обратное левосторонней вероятности распределения хи-квадрат.

Функция распределения хи-квадрат обычно используется для изучения вариации в процентах какой-либо величины между выборками — например, части дня, которую люди проводят у телевизора.

Синтаксис

Аргументы функции ХИ2.ОБР описаны ниже.

Вероятность — обязательный аргумент. Вероятность, связанная с распределением хи-квадрат.

Степени_свободы — обязательный аргумент. Число степеней свободы.

Замечания

Если аргумент не является числом, ХИ2. ОПС возвращает #VALUE! значение ошибки #ЗНАЧ!.

Если вероятность 1, ХИ2. ОПС возвращает #NUM! значение ошибки #ЗНАЧ!.

Если значение степени_свободы не целое, оно усекается.

Если deg_freedom 10^10, ХИ2. ОПС возвращает #NUM! значение ошибки #ЗНАЧ!.

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Возвращает значение, обратное левосторонней вероятности распределения хи-квадрат, для 0,93 с 1 степенью свободы.

Возвращает значение, обратное левосторонней вероятности распределения хи-квадрат, для 0,6 с 2 степенями свободы.

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: