Расчет f-критерия фишера онлайн

Выполненных работ критерий фишера. функция фишер в excel и примеры ее работы

Немного терминологии

Перед тем, как непосредственно начать обзор функций, нужно разобраться в том, что же это такое. Под этим понятием подразумевается заложенная разработчиками формула, по которой осуществляются вычисления и на выходе получается определенный результат. 

Каждая функция имеет две основные части: имя и аргумент. Формула может состоять из одной функции или нескольких. Чтобы ее начать писать, нужно кликнуть дважды по требуемой ячейке и написать знак «равно».

Следующая составная часть функции – это имя. Собственно, им и является название формулы, которое поможет Excel понять, что хочет пользователь. Вслед за ним в скобках приводятся аргументы. Это параметры функции, учитываемые для выполнения определенных операций. Бывает несколько типов аргументов: числовые, текстовые, логические. Также вместо них нередко используются ссылки на ячейки или определенный диапазон. Каждый аргумент отделяется от другого с помощью точки с запятой.

Синтаксис – одно из главных понятий, характеризующих функцию. Под этим термином подразумевается шаблон для вставки определенных значений с целью обеспечить работоспособность функции.

А теперь давайте все это проверим на практике.

Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» — первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» — второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Лабораторная работа № 21 Критерий Фишера

Далее
&nbsp &nbsp &nbsp

Критерий Фишера (F-критерий) применяется при сравнении
генеральных дисперсий по выборкам из нормальных распределений.
Часто встречается случай, когда проверяется гипотеза о равенстве генеральных дисперсий двух
выборок, т.е. такая нулевая гипотеза:

H: σ12 = σ22

При этом находят расчётное значение критерия Фишера:

Fрасч = s12/s22,

12221222

Далее находят табличное значение критерия Фишера в зависимости от альтернативной
гипотезы. Если принята альтернатива, что генеральные дисперсии не равны, т.е.

H1: σ12 ≠ σ22,

1222α/2112212

Если Fрасч α/2, то гипотезу равенства генеральных дисперсий не отклоняют (принимают на уровне значимости α).

При односторонней альтернативе

H1: σ12 >σ22

α

Если Fрасч α, то гипотезу равенства генеральных дисперсий не отклоняют.

Пример 21.1 При обработке втулок на двух токарных автоматах взяли образцы втулок и измерили их диаметры, мм. С первого автомата:

49,969 49,947 50,119 50,150 49,945 49,827 49,965 49,997 49,972 50,052 49,968 50,018

С второго автомата:

50,011 50,081 50,055 50,061 50,068 50,020 50,032 49,992 49,969 50,020 50,105 50,118 49,966 50,073 49,965 49,994 50,112

Считается, что выборки получены из нормальных распределений. Значима ли разница рассеяния
диаметров
втулок на разных автоматах при уровнях значимости 0,01, 0,05 и 0,1.

Мерой рассеяния является дисперсия. Поэтому проверяем гипотезу о равенстве генеральных дисперсий при альтернативе о их неравенстве. Вариант расчёта показан на рис. 21.1.

Рис.21.1. Вариант расчёта для примера 21.1.

Чтобы электронная таблица правильно пересчитывалась при вводе других данных, следует
предусмотреть расчёт промежуточных результатов для выборок большего объёма, например
до 1000. Итоговое сообщение о равенстве или неравенстве генеральных дисперсий выводится с
использованием функции ЕСЛИ.

Задание.

1. Выполнить расчёты в соответствии с примером 21.1.

2. Проверить гипотезу о равенстве генеральных дисперсий из примера 21.1 при альтернативе,
что дисперсия первой выборки больше, чем второй. Для этого скопировать созданную электронную
таблицу на новый лист и модифицировать её, включая изменение итогового сообщения.

3. По данным примера 20.1 определить, значимо ли различаются генеральные дисперсии для двух
выборок при различных уровнях значимости и различных альтернативных гипотезах.

&nbsp &nbsp &nbsp &nbsp Далее
&nbsp &nbsp &nbsp

Выборочный коэффициент корреляции

Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.

Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.

Предельное значение не дает выйти за 1 и, как бы «поджимает» распределение справа. Симметричная ситуация наблюдается, если коэффициент корреляции близок к -1.

В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:

Распределение z для тех же r имеет следующий вид.

Намного ближе к нормальному. Стандартная ошибка z равна:

Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.

cγ – квантиль стандартного нормального распределения;N-1 – функция обратного стандартного распределения;γ – доверительная вероятность (часто 95%).Затем рассчитаем границы доверительного интервала.

Нижняя граница z:

Верхняя граница z:

Теперь обратным преобразованием Фишера из z вернемся к r.Нижняя граница r:

Верхняя граница r:

Это была теоретическая часть. Переходим к практике расчетов.

Расчет величины показателя корреляции в Excel

Пример 3.
Используя данные 23 предприятий о: X — цена на товар А, тыс. руб.; Y — прибыль торгового предприятия, млн. руб, производится изучение их зависимости. Оценка регрессионной модели дала следующее: ∑(yi-yx) 2 = 50000; ∑(yi-yср) 2 = 130000. Какой показатель корреляции можно определить по этим данным? Рассчитайте величину показателя корреляции и, используя критерий Фишера, сделайте вывод о качестве модели регрессии.

Определим F крит из выражения:

F расч = R 2 /23*(1-R 2)

где R – коэффициент детерминации, равный 0,67.

Таким образом, расчетное значение F расч = 46.

Для определения F крит используем распределение Фишера (см. рисунок 3).

Рисунок 3 – Пример расчетов.

Таким образом, полученная оценка уравнения регрессии надежна.

Назначение.
Проверка гипотезы о принадлежности двух дисперсий одной генеральной совокупности и следовательно — их равенстве.

Нулевая гипотеза.
S 2 2 = S 1 2

Альтернативная гипотеза
. Существуют следующие варианты Н А в зависимости от которых различаются критические области:

1. S 1 2 > S 2 2 . Наиболее часто используемый вариант Н А. Критическая область — верхний хвост F-распределения.

2. S 1 2

3. Двухсторонняя S 1 2 ≠S 2 2 .Комбинация первых двух.

Предпосылки.
Данные независимы и распределены по нормальному закону. Гипотеза о равенстве дисперсий двух нормальных генеральных совокупностей принимается, если отношение большей дисперсии к меньшей меньше критического значения распределения Фишера.

F P = S 1 2 /S 2 2

Примечание. При описываемом способе проверки значение Fpaсч обязательно должно быть больше единицы. Критерий чувствителен к нарушению предположения о нормальности.

Для двухсторонней альтернативы S 1 2 ≠S 2 2 нулевая гипотеза принимается при выполнении условия:

F l — α /2

Пример

Комплексным теплометрическим методом определяли теплофизические. характеристики (ТФХ) зеленого солода. Для приготовления образцов брали воздушно-сухой (средняя влажность W=19%) и влажный солод четырехсуточного ращения (W=45%) в соответствии новой технологией приготовления карамельного солода. Опыты показали, что теплопроводность λ влажного солода примерно в 2,5 раза больше, чем сухого, а объемная теплоемкость не имеет четкой зависимости от влажности солода. Поэтому с помощью F-критерия проверили возможность обобщить данные по средним значениям без учета влажности

Расчетные данные сведены в таблицу 5.1

Таблица 5.1

Данные к расчету F-критерия

Проверка статистической значимости регрессии по функции FРАСПОБР

Пример 2.
Произвести проверку статистической значимости уравнения множественной регрессии с помощью F-критерия Фишера, сделать выводы.

Для проверки значимости уравнения в целом выдвинем гипотезу Н 0 о статистической незначимости коэффициента детерминации и противоположную ей гипотезу Н 1 о статистической значимости коэффициента детерминации:

Н 1: R 2 ≠ 0.

Проверим гипотезы с помощью F-критерия Фишера. Показатели приведены в таблице 2.

Таблица 2 – Исходные данные

Для этого используем в пакете Excel функцию:

FРАСПОБР (α;p;n-p-1)

  • α – вероятность, связанная с данным распределением;
  • p и n – числитель и знаменатель степеней свободы, соответственно.

Зная, что α = 0,05, p = 2 и n = 53, получаем следующее значение для F крит (см. рисунок 2).

Рисунок 2 – Пример расчетов.

Таким образом можно сказать, что F расч > F крит. В итоге принимается гипотеза Н 1 о статистической значимости коэффициента детерминации.

Проверка статистической значимости регрессии по функции FРАСПОБР

Пример 2.
Произвести проверку статистической значимости уравнения множественной регрессии с помощью F-критерия Фишера, сделать выводы.

Для проверки значимости уравнения в целом выдвинем гипотезу Н 0 о статистической незначимости коэффициента детерминации и противоположную ей гипотезу Н 1 о статистической значимости коэффициента детерминации:

Н 1: R 2 ≠ 0.

Проверим гипотезы с помощью F-критерия Фишера. Показатели приведены в таблице 2.

Таблица 2 – Исходные данные

Для этого используем в пакете Excel функцию:

FРАСПОБР (α;p;n-p-1)

  • α – вероятность, связанная с данным распределением;
  • p и n – числитель и знаменатель степеней свободы, соответственно.

Зная, что α = 0,05, p = 2 и n = 53, получаем следующее значение для F крит (см. рисунок 2).

Рисунок 2 – Пример расчетов.

Таким образом можно сказать, что F расч > F крит. В итоге принимается гипотеза Н 1 о статистической значимости коэффициента детерминации.

2 ЕСЛИ: Условие

Если вы хотите задать условие, используйте формулу ЕСЛИ. Эта полезная операция может стать главным помощником при работе с таблицами в Excel. ЕСЛИ играет роль логической функции, которая производит вычисления по заданным вами критериям.

Аргументами функции являются:

  • Лог_выражение — здесь надо задать параметр, по которому будут отбираться значения.
  • Значение_если_истина — то, что будет на экране, если логическое условие верно.
  • Значение_если_ложь — имя значения, которое не соответствует критерию, указанному в логическом выражении.

Вот небольшой пример: необходимо рассортировать данные таблицы с товаром. Зададим логическое выражение: «если стоимость больше 50». Если выражение верно, будем считать это значение как «Много», если нет — как «Мало». Нажмем «ОК».

Теперь напротив каждой ячейки со стоимостью будет указана ее характеристика. Это очень простой пример, но освоив ЕСЛИ вы сможете выполнять и сложные логические операции в Excel . Кроме того, функция понимает вложенные условия, а значит, с ее помощью можно решать действительно трудные задачи.

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

  1. Строим корреляционное поле: «Вставка» — «Диаграмма» — «Точечная диаграмма» (дает сравнивать пары). Диапазон значений – все числовые данные таблицы.
  2. Щелкаем левой кнопкой мыши по любой точке на диаграмме. Потом правой. В открывшемся меню выбираем «Добавить линию тренда».
  3. Назначаем параметры для линии. Тип – «Линейная». Внизу – «Показать уравнение на диаграмме».
  4. Жмем «Закрыть».

Для построения модели регрессии необходимо выбрать пункт Сервис\Анализ данных\Регрессия . (В Excel 2007 этот режим находится в блоке Данные/Анализ данных/Регрессия ) Появится диалоговое окно, которое нужно заполнить:

В результате выводится информация, содержащая все необходимые сведения и сгруппированная в три блока: Регрессионная статистика, Дисперсионный анализ, Вывод остатка. Рассмотрим их подробнее. 1. Регрессионная статистика: множественный R определяется формулой ; R-квадрат вычисляется по формуле ; Нормированный R -квадрат вычисляется по формуле ; Стандартная ошибка S вычисляется по формуле ; Наблюдения — это количество данных n.

3. Дисперсионный анализ, строка Остаток: Параметр df равен n-m-1; Параметр SS определяется формулой ; Параметр MS определяется формулой .

4. Дисперсионный анализ, строка Итого содержит сумму первых двух столбцов.

6. Дисперсионный анализ, строки x1, x2. xm содержат значения коэффициентов, стандартных ошибок, t-статистик, P-значений и доверительных интервалов для соответствующих xi. Блок Вывод остатка содержит значения предсказанного y (в наших обозначениях это ) и остатки .

Формулы с примерами использования функции СРЗНАЧА

Функция СРЗНАЧА отличается от СРЗНАЧ тем, что истинное логическое значение «ИСТИНА» в диапазоне приравнивается к 1, а ложное логическое значение «ЛОЖЬ» или текстовое значение в ячейках приравнивается к нулю. Поэтому результат вычисления функции СРЗНАЧА отличается:

Результат выполнения функции возвращает число в примере 2,833333, так как текстовые и логические значения приняты за нуль, а логическое ИСТИНА приравнено к единице. Следовательно:

(5 + 7 + 0 + 0 + 4 + 1) / 6 = 2,83

Аргументы функции СРЗНАЧА подчинены следующим свойствам:

  1. «Значение1» является обязательным, а «значение2» и все значения, которые следуют за ним необязательными. Общее количество диапазонов ячеек или их значений может быть от 1 до 255 ячеек.
  2. Аргумент может быть числом, именем, массивом или ссылкой, содержащей число, а также текстовым представлением числа или логическим значением, например, «истина» или «ложь».
  3. Логическое значение и текстовое представление числа, введенного в список аргументов, учитывается.
  4. Аргумент, содержащий значение «истина», интерпретируется как 1. Аргумент, содержащий значение «ложь», интерпретируется как 0 (ноль).
  5. Текст, содержащийся в массивах и ссылках, интерпретируется как 0 (ноль). Пустой текст («») интерпретирован тоже как 0 (ноль).
  6. Если аргумент массив или ссылка, то используются только значения, входящие в этот массив или ссылку. Пустые ячейки и текст в массиве и ссылке — игнорируется.
  7. Аргументы, которые являются значениями ошибки или текстом, не преобразуемым в числа, вызывают ошибки.

Результаты особенности функции СРЗНАЧА сведены в таблицу ниже:

Внимание! При вычислениях средних значений в Excel надо учитывать различия между пустой ячейкой и ячейкой, содержащей нулевое значение (особенно если в диалоговом окне «Параметры» снят флажок «Показывать нули в ячейках, которые содержат нулевые значения»). Когда флажок установлен, пустые ячейки не учитываются, а нулевые значения учитываются

Для установки флажка на вкладке «Файл» надо выбрать команду «Параметры», перейти в категорию «Дополнительно», где найди раздел «Показать параметры для следующего листа» и там установить флаг.

При подготовке к ГИА по информатике для успешного решения задачи 19 из части 3 необходимо знать некоторые функции Excel. Одна из таких функций — СРЗНАЧ. Рассмотрим ее подробнее.

Функция СРЗНАЧ Excel позволяет найти среднее арифметическое аргументов. Синтаксис этой функции такой:

Не забываем, что ввод формулы в ячейку начинается со знака «=».

В скобках мы можем перечислить числа, среднее значение которых хотим найти. К примеру, если мы напишем в ячейке =СРЗНАЧ(1; 2; -7; 10; 7; 5; 9), то получим 3,857142857. Это легко проверить — если мы сложим все числа в скобках (1 + 2 + (-7) + 10 + 7 + 5 + 9 = 27) и разделим на их количество ( 7 ), то получим 3,857142857142857.

Обратите внимание — числа в скобках разделяются точкой с запятой (;). Таким образом мы можем указать до 255 чисел

Для примеров я использую Microsort Excel 2010.

Кроме того, с помощью функции СРЗНАЧ мы можем найти среднее значение диапазона ячеек. Предположим, что у нас в диапазоне A1:A7 хранятся некоторые числа, и мы хотим найти их среднее арифметическое.

Давайте поместим в ячейку B1 среднее арифметическое диапазона A1:A7. Для этого устанавливаем курсор в ячейку B1 и пишем =СРЗНАЧ(A1:A7). В скобках я указал диапазон ячеек

Обратите внимание, что разделителем является символ двоеточие (). Можно было бы поступить еще проще — написать в ячейке B1 =СРЗНАЧ( , а далее мышкой выделить нужный диапазон

В итоге в ячейке B1 мы получим число 15,85714286 — это и есть среднее арифметическое диапазона A1:A7.

Excel среднее значение диапазона

Распределение Фишера (F-распределение). Распределения математической статистики в EXCEL

history 12 ноября 2016 г.

Распределения вероятностей

Рассмотрим распределение Фишера (F-распределение). С помощью функции MS EXCEL F .РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.

F-распределение (англ. F-distribution) применяется для целей дисперсионного анализа (ANOVA), при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) и др.

Определение : Если U 1 и U 2 независимые случайные величины, имеющие ХИ2-распределение с k 1 и k 2степенями свободы соответственно, то распределение случайной величины:

носит название F -распределения с параметрами k 1 и k 2 .

Плотность F -распределения выражается формулой:

где Г(…) – гамма-функция:

если альфа – положительное целое, то Г( альфа )=( альфа -1)!

Приведем пример случайной величины, имеющей F -распределение.

Пусть имеется 2 нормальных распределения N(μ 11 ) и N(μ 2 ; σ 2 ), из которых сделаны выборки размером n 1 и n 2 . Если s 1 2 и s 2 2 – дисперсии этих выборок , то отношение

имеет F -распределение. Это соотношение нам потребуется при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) .

Графики функций

В файле примера на листе График приведены графики плотности распределения вероятности и интегральной функции распределения .

Примечание : Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм .

F-распределение в MS EXCEL

В MS EXCEL, начиная с версии 2010, для F-распределения имеется специальная функция F.РАСП() , английское название – F.DIST(), которая позволяет вычислить плотность вероятности (см. формулу выше) и интегральную функцию распределения (вероятность, что случайная величина Х, имеющая F — распределение , примет значение меньше или равное х, P(X Примечание Плотность вероятности можно также вычислить впрямую, с помощью формул (см. файл примера ).

До MS EXCEL 2010 в EXCEL была функция FРАСП() , которая позволяет вычислить функцию распределения (точнее — правостороннюю вероятность, т.е. P(X>x)). Функция FРАСП() оставлена в MS EXCEL 2010 для совместимости. Аналогом FРАСП() является функция F.РАСП.ПХ() , появившаяся в MS EXCEL 2010.

Примеры расчетов приведены в файле примера на листе Функции .

В MS EXCEL имеется еще одна функция, использующая для расчетов F-распределение – это F.ТЕСТ(массив1;массив2) . Эта функция возвращает результат F-теста : двухстороннюю вероятность того, что разница между дисперсиями выборок «массив1» и «массив2» несущественна. Предполагается, что выборки делаются из нормального распределения .

Обратная функция F-распределения

Обратная функция используется для вычисления альфа — квантилей , т.е. для вычисления значений x при заданной вероятности альфа , причем х должен удовлетворять выражению P

Функция F.ОБР.ПХ() используется для вычисления верхнего квантиля . Т.е. если в качестве аргумента функции указан уровень значимости, например 0,05, то функция вернет такое значение случайной величины х, для которого P(X>x)=0,05. В качестве сравнения: функция F.ОБР() вернет такое значение случайной величины х, для которого P(X F.ОБР.ПХ() использовалась функция FРАСПОБР() .

Вышеуказанные функции можно взаимозаменять, т.к. следующие формулы возвращают одинаковый результат: =F.ОБР(0,05;k1;k2) =F.ОБР.ПХ(1-0,05;k1;k2) = FРАСПОБР (1-0,05;k1;k2)

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Проверка статистической значимости регрессии по функции FРАСПОБР

Пример 2.
Произвести проверку статистической значимости уравнения множественной регрессии с помощью F-критерия Фишера, сделать выводы.

Для проверки значимости уравнения в целом выдвинем гипотезу Н 0 о статистической незначимости коэффициента детерминации и противоположную ей гипотезу Н 1 о статистической значимости коэффициента детерминации:

Н 1: R 2 ≠ 0.

Проверим гипотезы с помощью F-критерия Фишера. Показатели приведены в таблице 2.

Таблица 2 – Исходные данные

Для этого используем в пакете Excel функцию:

FРАСПОБР (α;p;n-p-1)

  • α – вероятность, связанная с данным распределением;
  • p и n – числитель и знаменатель степеней свободы, соответственно.

Зная, что α = 0,05, p = 2 и n = 53, получаем следующее значение для F крит (см. рисунок 2).

Рисунок 2 – Пример расчетов.

Таким образом можно сказать, что F расч > F крит. В итоге принимается гипотеза Н 1 о статистической значимости коэффициента детерминации.

Линейный коэффициент корреляции Пирсона

Обнаружение взаимосвязей между явлениями – одна из главных задач статистического анализа. На то есть две причины. Первая. Если известно, что один процесс зависит от другого, то на первый можно оказывать влияние через второй. Вторая. Даже если причинно-следственная связь отсутствует, то по изменению одного показателя можно предсказать изменение другого.

Взаимосвязь двух переменных проявляется в совместной вариации: при изменении одного показателя имеет место тенденция изменения другого. Такая взаимосвязь называется корреляцией, а раздел статистики, который занимается взаимосвязями – корреляционный анализ.

Корреляция – это, простыми словами, взаимосвязанное изменение показателей. Она характеризуется направлением, формой и теснотой. Ниже представлены примеры корреляционной связи.

Далее будет рассматриваться только линейная корреляция. На диаграмме рассеяния (график корреляции) изображена взаимосвязь двух переменных X и Y. Пунктиром показаны средние.

При положительном отклонении X от своей средней, Y также в большинстве случаев отклоняется в положительную сторону от своей средней. Для X меньше среднего, Y, как правило, тоже ниже среднего. Это прямая или положительная корреляция. Бывает обратная или отрицательная корреляция, когда положительное отклонение от средней X ассоциируется с отрицательным отклонением от средней Y или наоборот.

Линейность корреляции проявляется в том, что точки расположены вдоль прямой линии. Положительный или отрицательный наклон такой линии определяется направлением взаимосвязи.

Крайне важная характеристика корреляции – теснота. Чем теснее взаимосвязь, тем ближе к прямой точки на диаграмме. Как же ее измерить?

Складывать отклонения каждого показателя от своей средней нет смысла, получим нуль. Похожая проблема встречалась при измерении вариации, а точнее дисперсии. Там эту проблему обходят через возведение каждого отклонения в квадрат.

Квадрат отклонения от средней измеряет вариацию показателя как бы относительно самого себя. Если второй множитель в числителе заменить на отклонение от средней второго показателя, то получится совместная вариация двух переменных, которая называется ковариацией.

Чем больше пар имеют одинаковый знак отклонения от средней, тем больше сумма в числителе (произведение двух отрицательных чисел также дает положительное число). Большая положительная ковариация говорит о прямой взаимосвязи между переменными. Обратная взаимосвязь дает отрицательную ковариацию. Если количество совпадающих по знаку отклонений примерно равно количеству не совпадающих, то ковариация стремится к нулю, что говорит об отсутствии линейной взаимосвязи.

Таким образом, чем больше по модулю ковариация, тем теснее линейная взаимосвязь. Однако значение ковариации зависит от масштаба данных, поэтому невозможно сравнивать корреляцию для разных переменных. Можно определить только направление по знаку. Для получения стандартизованной величины тесноты взаимосвязи нужно избавиться от единиц измерения путем деления ковариации на произведение стандартных отклонений обеих переменных. В итоге получится формула коэффициента корреляции Пирсона.

Показатель имеет полное название линейный коэффициент корреляции Пирсона или просто коэффициент корреляции.

Коэффициент корреляции показывает тесноту линейной взаимосвязи и изменяется в диапазоне от -1 до 1. -1 (минус один) означает полную (функциональную) линейную обратную взаимосвязь. 1 (один) – полную (функциональную) линейную положительную взаимосвязь. 0 – отсутствие линейной корреляции (но не обязательно взаимосвязи). На практике всегда получаются промежуточные значения. Для наглядности ниже представлены несколько примеров с разными значениями коэффициента корреляции.

Таким образом, ковариация и корреляция отражают тесноту линейной взаимосвязи. Последняя используется намного чаще, т.к. является относительным показателем и не имеет единиц измерения.

Диаграммы рассеяния дают наглядное представление, что измеряет коэффициент корреляции. Однако нужна более формальная интерпретация. Эту роль выполняет квадрат коэффициента корреляции r 2 , который называется коэффициентом детерминации, и обычно применяется при оценке качества регрессионных моделей. Снова представьте линию, вокруг которой расположены точки.

Линейная функция является моделью взаимосвязи между X иY и показывает ожидаемое значение Y при заданном X. Коэффициент детерминации – это соотношение дисперсии ожидаемых Y (точек на прямой линии) к общей дисперсии Y, или доля объясненной вариации Y. При r = 0,1 r 2 = 0,01 или 1%, при r = 0,5 r 2 = 0,25 или 25%.

Критерий Фишера

Критерий Фишера применяется при проверке
гипотезы о равенстве дисперсий двух
генеральных совокупностей, распределенных
по нормальному закону. Он является
параметрическим критерием.

F-критерий Фишера называют дисперсионным
отношением, так как он формируется как
отношение двух сравниваемых несмещенных
оценок дисперсий.

Пусть в результате наблюдений получены
две выборки. По ним вычислены дисперсии
и
,
имеющие
и
степеней
свободы. Будем считать, что первая
выборка взята из генеральной совокупности
с дисперсией
,
а вторая – из генеральной совокупности
с дисперсией
.
Выдвигается нулевая гипотеза о равенстве
двух дисперсий, т.е. H 0:

или
.
Для того, чтобы отвергнуть эту гипотезу
нужно доказать значимость различия при
заданном уровне значимости
.

Значение критерия вычисляется по
формуле:

Очевидно, что при равенстве дисперсий
величина критерия будет равна единице.
В остальных случаях она будет больше
(меньше) единицы.

Критерий имеет распределение Фишера
.
Критерий Фишера – двусторонний критерий,
и нулевая гипотеза

отвергается в пользу альтернативной

если
.
Здесь
,
где

– объем первой и второй выборки
соответственно.

В системе STATISTICA реализован
односторонний критерий Фишера, т.е. в
качестве
всегда берут максимальную дисперсию.
В этом случае нулевая гипотеза отвергается
в пользу альтернативы
,
если
.

Пример

Пусть поставлена задача, сравнить
эффективность
обучения
двух групп студентов. Уровень успеваемости
— характеризует уровень управления
процессом обучения, а дисперсия качество
управления обучением, степень
организованности
процесса обучения. Оба показателя
являются независимыми
и в общем случае должны рассматриваться
совместно. Уровень
успеваемости (математическое
ожидание) каждой группы студентов
характеризуется средними
арифметическими

и
,
а качество характеризуется соответствующими
выборочными дисперсиями оценок:
и
.
При оценке уровня текущей успеваемости
оказалось, что он одинаков у обоих
учащихся:

=
=
4,0. Выборочные дисперсии:

и
.
Числа степеней свободы, соответствующие
этим оценкам:

и

. Отсюда для установления различий в
эффективности обучения мы можем
воспользоваться стабильностью
успеваемости, т.е. проверим гипотезу
.

Вычислим

(в числителе должна быть большая
дисперсия),
.
По таблицам (STATISTICA

Probability
Distribution
Calculator
)
находим
,
которое меньше вычисленного, следовательно
нулевая гипотеза должна быть отвергнута
в пользу альтернативы
.
Это заключение может не удовлетворить
исследователя, поскольку его интересует
истинная величина отношения

(у нас в числителе всегда большая
дисперсия). При проверке одностороннего
критерия получим
,
что меньше вычисленного выше значения.
Итак, нулевая гипотеза должна быть
отвергнута в пользу альтернативы
.

Критерий
Фишера
в программе STATISTICA
в среде Windows

Для примера проверки гипотезы (критерий
Фишера) используем (создаем) файл с двумя
переменными (fisher.sta):

Рис. 1. Таблица с
двумя независимыми переменными

Чтобы проверить гипотезу необходимо в
базовой статистике (Basic
Statistics
and
Tables
) выбрать проверку
по Стьюденту для независимых переменных.
(t-test, independent,
by variables
).

Рис. 2. Проверка
параметрических гипотез

После выбора переменных и нажатия на
клавишу Summary
производится
подсчет значений среднеквадратичных
отклонений и критерия Фишера. Кроме
этого определяется уровень значимости
p
, при котором различие
несущественно.

Рис. 3. Результаты
проверки гипотезы (F-
критерий)

Используя Probability
Calculator
и задав
значение параметров можно построить
график распределения Фишера с пометкой
вычисленного значения.

Рис. 4. Область
принятия (отклонения) гипотезы (F-
критерий)

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: