Дисперсионный анализ: соединение теории и практики

Как посчитать нормальное распределение в excel – распределение стьюдента | 📂все о программе word

Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример

Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить
не только возможную
зависимость результативного признака от двух факторов — A и B, но и возможное
взаимодействие факторов A и B. Тогда
a — число градаций фактора A и b — число градаций фактора B, r —
число повторений. В
статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:

,

где

— общая сумма квадратов отклонений,

— объяснённая
влиянием фактора сумма квадратов отклонений,

— объяснённая
влиянием фактора сумма квадратов отклонений,

— объяснённая
влиянием взаимодействия факторов и сумма квадратов отклонений,

— необъяснённая сумма
квадратов отклонений или сумма квадратов отклонений ошибки,


общее среднее наблюдений,


среднее наблюдений в каждой градации фактора ,


среднее число наблюдений в каждой градации фактора ,


среднее число наблюдений в каждой комбинации градаций факторов
и ,

— общее число наблюдений.

Дисперсии вычисляются следующим образом:


дисперсия, объяснённая влиянием фактора ,


дисперсия, объяснённая влиянием фактора ,


дисперсия, объяснённая взаимодействием факторов и ,


необъяснённая дисперсия или дисперсия ошибки,

где


число степеней свободы дисперсии, объяснённой влиянием фактора ,


число степеней свободы дисперсии, объяснённой влиянием фактора ,


число степеней свободы дисперсии, объяснённой взаимодействием факторов и ,


число степеней свободы необъяснённой дисперсии или дисперсии ошибки,


общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов
выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора :

,

: не все равны;

для фактора :

,

: не все равны;

для взаимодействия факторов и :

,

: ABij ≠ 0
для всех i и j.

Чтобы определить влияние фактора , нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .

Чтобы определить влияние фактора , нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .

Чтобы определить влияние взаимодействия факторов и
, нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует
отклонить нулевую гипотезу с уровнем значимости . Это означает,
что фактор существенно влияет на данные: данные зависят от фактора с вероятностью
.

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует
принять нулевую гипотезу с уровнем значимости . Это означает,
что фактор не оказывает существенного влияния на данные с вероятностью
.

Двухфакторный дисперсионный анализ с повторениями: пример

Пример 4. Торговое предприятие имеет три магазина —
, и .
Проводятся две рекламные кампании. Требуется выяснить, зависят ли средние дневные доходы магазинов от
двух рекламных кампаний. Для процедуры проверки случайно выбраны по 3 дня каждой рекламной кампании
(то есть число повторений ). Результаты обобщены
в таблице:

Рекламная кампания Магазин
Рекламная кампания 1 12,05
23,94
14,63
Рекламная кампания 2 25,78
17,52
18,45
Среднее 18,73
Магазин Магазин Среднее
15,17 9,48 14,53
18,52 6,92
19,57 10,47
21,40 7,63 15,86
13,59 11,90
20,57 5,92
18,14 8,72

Факторы, подлежащие проверке: магазин (, и )
и рекламная кампания (1 и 2). Пусть эти факторы не зависят друг от друга.

Вычислим суммы квадратов отклонений:

,

,

,

.

Числа степеней свободы:

,

,

,

,

.

Дисперсии:

,

,

,

.

Фактические отношения Фишера:

для фактора :

для фактора :

для взаимодействия факторов и :
.

Критические значения отношения Фишера:

для фактора : ,

для фактора :

для взаимодействия факторов и :
.

Делаем выводы:

о влиянии фактора : фактическое отношение Фишера
меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%,

о влиянии фактора : фактическое отношение Фишера
больше критического, следовательно, доходы существенно различаются между магазинами,

о взаимодействии факторов и :
фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного
магазина не существенно.

Функция FРАСПОБР для оценки значимости параметров модели регрессии

Критическое значения F может быть определено в случае, если в качестве первого аргумента рассматриваемой функции будет введено значение уровня значимости.

Для расчета F используется следующая формула:

Функция оперирует двумя дополнительными критериями:

  1. Числитель степеней свободы: n1 = k.
  2. Знаменатель степеней свободы: n2 = (n – k – 1).

Через переменную k обозначают число факторов, которые были включены в исследуемую модель регрессии.

В Excel предусмотрена функция для расчета вероятности для распределения Фишера – FРАСП. Между данной и рассматриваемой функциями существует следующая взаимосвязь: =FРАСПОБР(FРАСП(x;n1;n2);n1;n2)=x.

В MS Office 2007 и более поздних версиях была введена функция F.ОБР.ПХ, которая заменила рассматриваемую функцию. FПАСПОБР была оставлена для обеспечения совместимости с документами, созданными в более старых версиях Excel.

Критерий Фишера

Критерий Фишера применяется при проверке
гипотезы о равенстве дисперсий двух
генеральных совокупностей, распределенных
по нормальному закону. Он является
параметрическим критерием.

F-критерий Фишера называют дисперсионным
отношением, так как он формируется как
отношение двух сравниваемых несмещенных
оценок дисперсий.

Пусть в результате наблюдений получены
две выборки. По ним вычислены дисперсии
и
,
имеющие
и
степеней
свободы. Будем считать, что первая
выборка взята из генеральной совокупности
с дисперсией
,
а вторая – из генеральной совокупности
с дисперсией
.
Выдвигается нулевая гипотеза о равенстве
двух дисперсий, т.е. H 0:

или
.
Для того, чтобы отвергнуть эту гипотезу
нужно доказать значимость различия при
заданном уровне значимости
.

Значение критерия вычисляется по
формуле:

Очевидно, что при равенстве дисперсий
величина критерия будет равна единице.
В остальных случаях она будет больше
(меньше) единицы.

Критерий имеет распределение Фишера
.
Критерий Фишера – двусторонний критерий,
и нулевая гипотеза

отвергается в пользу альтернативной

если
.
Здесь
,
где

– объем первой и второй выборки
соответственно.

В системе STATISTICA реализован
односторонний критерий Фишера, т.е. в
качестве
всегда берут максимальную дисперсию.
В этом случае нулевая гипотеза отвергается
в пользу альтернативы
,
если
.

Пример

Пусть поставлена задача, сравнить
эффективность
обучения
двух групп студентов. Уровень успеваемости
— характеризует уровень управления
процессом обучения, а дисперсия качество
управления обучением, степень
организованности
процесса обучения. Оба показателя
являются независимыми
и в общем случае должны рассматриваться
совместно. Уровень
успеваемости (математическое
ожидание) каждой группы студентов
характеризуется средними
арифметическими

и
,
а качество характеризуется соответствующими
выборочными дисперсиями оценок:
и
.
При оценке уровня текущей успеваемости
оказалось, что он одинаков у обоих
учащихся:

=
=
4,0. Выборочные дисперсии:

и
.
Числа степеней свободы, соответствующие
этим оценкам:

и

. Отсюда для установления различий в
эффективности обучения мы можем
воспользоваться стабильностью
успеваемости, т.е. проверим гипотезу
.

Вычислим

(в числителе должна быть большая
дисперсия),
.
По таблицам (STATISTICA

Probability
Distribution
Calculator
)
находим
,
которое меньше вычисленного, следовательно
нулевая гипотеза должна быть отвергнута
в пользу альтернативы
.
Это заключение может не удовлетворить
исследователя, поскольку его интересует
истинная величина отношения

(у нас в числителе всегда большая
дисперсия). При проверке одностороннего
критерия получим
,
что меньше вычисленного выше значения.
Итак, нулевая гипотеза должна быть
отвергнута в пользу альтернативы
.

Критерий
Фишера
в программе STATISTICA
в среде Windows

Для примера проверки гипотезы (критерий
Фишера) используем (создаем) файл с двумя
переменными (fisher.sta):

Рис. 1. Таблица с
двумя независимыми переменными

Чтобы проверить гипотезу необходимо в
базовой статистике (Basic
Statistics
and
Tables
) выбрать проверку
по Стьюденту для независимых переменных.
(t-test, independent,
by variables
).

Рис. 2. Проверка
параметрических гипотез

После выбора переменных и нажатия на
клавишу Summary
производится
подсчет значений среднеквадратичных
отклонений и критерия Фишера. Кроме
этого определяется уровень значимости
p
, при котором различие
несущественно.

Рис. 3. Результаты
проверки гипотезы (F-
критерий)

Используя Probability
Calculator
и задав
значение параметров можно построить
график распределения Фишера с пометкой
вычисленного значения.

Рис. 4. Область
принятия (отклонения) гипотезы (F-
критерий)

Распределение Фишера (F-распределение). Распределения математической статистики в EXCEL

history 12 ноября 2016 г.

Распределения вероятностей

Рассмотрим распределение Фишера (F-распределение). С помощью функции MS EXCEL F .РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.

F-распределение (англ. F-distribution) применяется для целей дисперсионного анализа (ANOVA), при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) и др.

Определение : Если U 1 и U 2 независимые случайные величины, имеющие ХИ2-распределение с k 1 и k 2степенями свободы соответственно, то распределение случайной величины:

носит название F -распределения с параметрами k 1 и k 2 .

Плотность F -распределения выражается формулой:

где Г(…) – гамма-функция:

если альфа – положительное целое, то Г( альфа )=( альфа -1)!

Приведем пример случайной величины, имеющей F -распределение.

Пусть имеется 2 нормальных распределения N(μ 11 ) и N(μ 2 ; σ 2 ), из которых сделаны выборки размером n 1 и n 2 . Если s 1 2 и s 2 2 – дисперсии этих выборок , то отношение

имеет F -распределение. Это соотношение нам потребуется при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) .

Графики функций

В файле примера на листе График приведены графики плотности распределения вероятности и интегральной функции распределения .

Примечание : Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм .

F-распределение в MS EXCEL

В MS EXCEL, начиная с версии 2010, для F-распределения имеется специальная функция F.РАСП() , английское название – F.DIST(), которая позволяет вычислить плотность вероятности (см. формулу выше) и интегральную функцию распределения (вероятность, что случайная величина Х, имеющая F — распределение , примет значение меньше или равное х, P(X Примечание Плотность вероятности можно также вычислить впрямую, с помощью формул (см. файл примера ).

До MS EXCEL 2010 в EXCEL была функция FРАСП() , которая позволяет вычислить функцию распределения (точнее — правостороннюю вероятность, т.е. P(X>x)). Функция FРАСП() оставлена в MS EXCEL 2010 для совместимости. Аналогом FРАСП() является функция F.РАСП.ПХ() , появившаяся в MS EXCEL 2010.

Примеры расчетов приведены в файле примера на листе Функции .

В MS EXCEL имеется еще одна функция, использующая для расчетов F-распределение – это F.ТЕСТ(массив1;массив2) . Эта функция возвращает результат F-теста : двухстороннюю вероятность того, что разница между дисперсиями выборок «массив1» и «массив2» несущественна. Предполагается, что выборки делаются из нормального распределения .

Обратная функция F-распределения

Обратная функция используется для вычисления альфа — квантилей , т.е. для вычисления значений x при заданной вероятности альфа , причем х должен удовлетворять выражению P

Функция F.ОБР.ПХ() используется для вычисления верхнего квантиля . Т.е. если в качестве аргумента функции указан уровень значимости, например 0,05, то функция вернет такое значение случайной величины х, для которого P(X>x)=0,05. В качестве сравнения: функция F.ОБР() вернет такое значение случайной величины х, для которого P(X F.ОБР.ПХ() использовалась функция FРАСПОБР() .

Вышеуказанные функции можно взаимозаменять, т.к. следующие формулы возвращают одинаковый результат: =F.ОБР(0,05;k1;k2) =F.ОБР.ПХ(1-0,05;k1;k2) = FРАСПОБР (1-0,05;k1;k2)

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Проверка статистической значимости регрессии по функции FРАСПОБР

Пример 2.
Произвести проверку статистической значимости уравнения множественной регрессии с помощью F-критерия Фишера, сделать выводы.

Для проверки значимости уравнения в целом выдвинем гипотезу Н 0 о статистической незначимости коэффициента детерминации и противоположную ей гипотезу Н 1 о статистической значимости коэффициента детерминации:

Н 1: R 2 ≠ 0.

Проверим гипотезы с помощью F-критерия Фишера. Показатели приведены в таблице 2.

Таблица 2 – Исходные данные

Для этого используем в пакете Excel функцию:

FРАСПОБР (α;p;n-p-1)

  • α – вероятность, связанная с данным распределением;
  • p и n – числитель и знаменатель степеней свободы, соответственно.

Зная, что α = 0,05, p = 2 и n = 53, получаем следующее значение для F крит (см. рисунок 2).

Рисунок 2 – Пример расчетов.

Таким образом можно сказать, что F расч > F крит. В итоге принимается гипотеза Н 1 о статистической значимости коэффициента детерминации.

Критерии Стьюдента

Для оценки статистической значимости модели по параметрам рассчитывают t-критерии Стьюдента.

Оценка значимости модели с помощью критерия Стьюдента проводится путем сравнения их значений с величиной случайной ошибки:

Случайные ошибки коэффициентов линейной регрессии и коэффициента корреляции определяются по формулам:

Сравнивая фактическое и табличное значения t-статистики и принимается или отвергается гипотеза о значимости модели по параметрам.

Зависимость между критерием Фишера и значением t-статистики Стьюдента определяется так

Как и в случае с оценкой значимости уравнения модели в целом, модель считается ненадежной если tтабл > tфакт

Порядок расчета критерия φ*

1. Формулируем статистические гипотезы:

Но: доля студентов, получивших оценки 4 и 5 до эксперимента такая же, как и после эксперимента;

Н1: доля студентов, получивших оценки 4 и 5 после эксперимента больше, чем до эксперимента.

2. Определяем значения углов φ1 и φ2, соответствующие долям p1 = 0,666; p2 = 0,888

φ1= 2arcsin (√p1)= 2 arcsin √0,6662 arcsin (0,816)= 2·0.954=1.908

φ2= 2arcsin (√p2)= 2 arcsin √0,888=2 arcsin (0,942)= 2·1.228=2.457

3. Вычисляем эмпирическое значение φ по формуле.

4. Сравниваем эмпирическое значение критерия с критическим (представлено в таблице 2)

Таблица 2. Критические значения критерия при различных значениях уровнях значимости α (Попов Г.И. с соавт., 2007).

α критические значения критерия φ*
0,001 2,91
0,01 2,31
0,05 1,64
0,1 1,29

Расчет в программе Excel

В программу введен контрольный пример. В верхней части программы показано, как должны быть представлены исходные данные в случае связанных выборок (слева) и в случае независимых выборок (справа).

Чтобы выполнить расчет, нужно заполнить клетки, выделенные желтым цветом в нижней части таблицы. После этого будет получено эмпирическое значение критерия (фи*эмп). Затем подученное значение эмпирического значения фи нужно сравнить с критическим значением (фи* крит) на заданном уровне значимости. Эти значения приведены в табл.1. Если фи*эмп больше чем фи*крит, различия между группами статистически достоверны.

-Критерий стьюдента для уравнения множественной регрессии.

Частный
-критерий
оценивает значимость коэффициентов
чистой регрессии. Зная величину,
можно определить и-критерий
для коэффициента регрессии при-м
факторе,,
а именно:

.
(2.24)

Оценка значимости коэффициентов чистой
регрессии по
-критерию
Стьюдента может быть проведена и без
расчета частных-критериев.
В этом случае, как и в парной регрессии,
для каждого фактора используется
формула:

,
(2.25)

где
– коэффициент чистой регрессии при
факторе,– средняя квадратическая (стандартная)
ошибка коэффициента регрессии.

Для уравнения множественной регрессии
средняя квадратическая ошибка коэффициента
регрессии может быть определена по
следующей формуле:

,
(2.26)

где
,– среднее квадратическое отклонение
для признака,– коэффициент детерминации для
уравнения множественной регрессии,– коэффициент детерминации для
зависимости факторасо всеми другими факторами уравнения
множественной регрессии;– число степеней свободы для остаточной
суммы квадратов отклонений.

Как видим, чтобы воспользоваться данной
формулой, необходимы матрица межфакторной
корреляции и расчет по ней соответствующих
коэффициентов детерминации
.
Так, для уравненияоценка значимости коэффициентов
регрессии,,предполагает расчет трех межфакторных
коэффициентов детерминации:,,.

Взаимосвязь показателей частного
коэффициента корреляции, частного
-критерия
и-критерия
Стьюдента для коэффициентов чистой
регрессии может использоваться в
процедуре отбора факторов. Отсев факторов
при построении уравнения регрессии
методом исключения практически можно
осуществлять не только по частным
коэффициентам корреляции, исключая на
каждом шаге фактор с наименьшим незначимым
значением частного коэффициента
корреляции, но и по величинами.
Частный-критерий
широко используется и при построении
модели методом включения переменных и
шаговым регрессионным методом.

На данном примере рассмотрим, как оценивается надежность полученного уравнение регрессии. Этот же тест используется для проверки гипотезы о том, что коэффициенты регрессии одновременно равны нулю, a=0 , b=0 . Другими словами, суть расчетов — ответить на вопрос: можно ли его использовать для дальнейшего анализа и прогнозов?

Для установления сходства или различия дисперсий в двух выборках используйте данный t-критерий .

Итак, целью анализа является получение некоторой оценки, с помощью которой можно было бы утверждать, что при некотором уровне α полученное уравнение регрессии — статистически надежно. Для этого используется коэффициент детерминации R 2
.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3

Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2 (или через функцию Excel FРАСПОБР(вероятность;1;n-2)).
F табл — это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α — вероятность отвергнуть правильную гипотезу при условии, что она верна

Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k 1 =1 и k 2 =48, F табл = 4

Выводы
: Поскольку фактическое значение F > F табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна
)
.

Закон распределения Пуассона

Определение: Дискретная случайная величина Х имеет закон распределения Пуассона, если она принимает значения 0, 1, 2, …, m с вероятностями Ряд распределения закона Пуассона имеет вид:

Теорема. Математическое ожидание и дисперсия случайной величины, распределенной по закону Пуассона, совпадают и равны параметру λ этого закона, т.е.

При достаточно больших n (вообще при n → ∞) и малых значениях р (р → 0) при условии, что произведение np – постоянная величина (nр → λ = const), закон распределения Пуассона является хорошим приближением биноминального закона. Т.е. при n → ∞, р → 0, nр → λ = const закон распределения Пуассона является предельным случаем биноминального закона. Так как при этом вероятность р события А в каждом испытании мала, то закон распределения Пуассона часто называют законом редких явлений.

По закону Пуассона распределены, например, число сбоев на автоматической линии, число отказов сложной системы в нормальном режиме, число требований на обслуживание в единицу времени в системах массового обслуживания, и т.п.

Отметим еще, что если случайная величина представляет собой сумму двух независимых случайных величин, каждая из которых распределена по закону Пуассона, то она также распределена по закону Пуассона с параметром

Как выполнить точный тест Фишера в Excel

Точный критерий Фишера используется для определения того, существует ли значительная связь между двумя категориальными переменными. Обычно он используется в качестве альтернативы критерию независимости хи-квадрат, когда количество одной или нескольких ячеек в таблице 2 × 2 меньше 5.

В этом руководстве объясняется, как выполнить точный критерий Фишера в Excel.

Пример: точный критерий Фишера в Excel

Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии в конкретном колледже. Чтобы изучить это, мы случайным образом опрашиваем 25 студентов в кампусе. Количество студентов, которые являются демократами или республиканцами, в зависимости от пола, показано в таблице ниже:

Чтобы определить, существует ли статистически значимая связь между полом и предпочтениями политической партии, мы можем выполнить точный тест Фишера.

Хотя в Excel нет встроенной функции для выполнения этого теста, мы можем использовать гипергеометрическую функцию для выполнения теста, которая использует следующий синтаксис:

=HYPGEOM.DIST(выборка_s, число_выборка, совокупность_s, число_население, кумулятивный)

  • sample_s = количество «успехов» в образце
  • number_sample = размер выборки
  • населения_s = количество «успехов» в популяции
  • number_pop = численность населения
  • cumulative = если TRUE, возвращает кумулятивную функцию распределения; если FALSE, это возвращает функцию массы вероятности. Для наших целей мы всегда будем использовать TRUE.

Чтобы применить эту функцию к нашему примеру, мы выберем для использования одну из четырех ячеек в таблице 2×2. Подойдет любая ячейка, но в этом примере мы будем использовать верхнюю левую ячейку со значением «4».

Далее мы заполним следующие значения для функции:

= HYPGEOM.DIST (значение в отдельной ячейке, общее количество столбцов, общее количество строк, общий размер выборки, TRUE)

Это дает одностороннее p-значение 0,0812 .

Чтобы найти двустороннее p-значение для теста, мы сложим вместе следующие две вероятности:

  • Вероятность получения x «успехов» в интересующей нас ячейке. В нашем случае это вероятность получения 4 успехов (мы уже нашли эту вероятность равной 0,0812).
  • 1 — вероятность попадания (общее количество столбцов — х «успехов») в интересующую нас ячейку. В этом случае общее количество столбцов для демократа равно 12, поэтому мы найдем 1 — (вероятность 8 « успехов»)

Вот формула, которую мы будем использовать:

Это дает двустороннее p-значение 0,1152 .

В любом случае, проводим ли мы односторонний или двусторонний тест, p-значение не меньше 0,05, поэтому мы не можем отвергнуть нулевую гипотезу. Другими словами, у нас нет достаточных доказательств, чтобы сказать, что существует значительная связь между полом и предпочтениями политических партий.

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: