Критерий стьюдента в microsoft excel

Оценивание параметров генеральных совокупностей методом малых выборок по критерию стьюдента с помощью шаблонов excel | статья в журнале «молодой ученый»

Как пользоваться функцией распределения Стьюдента СТЮДРАСПОБР В EXCEL

Функция имеет следующий синтаксис:

  • вероятность – обязательный для заполнения, принимает числовое значение вероятности для двустороннего распределения Стьюдента из диапазона от 0 (не включительно) до 1.
  • степени_свободы – обязательный для заполнения, принимает числовое значение степеней свободы, которые определяют исследуемое распределение.
  1. Если один из аргументов функции указан в виде значения нечислового типа данных, результатом выполнения рассматриваемой функции будет код ошибки #ЗНАЧ!. Логические значения, имена и текстовые строки, преобразуемые в числа, не приводят к возникновению ошибки. Например, функция =СТЮДРАСПОБР(“0,4”;ИСТИНА) вернет значение 1,32638.
  2. Если аргумент вероятность задан числом, не находящимся в промежутке от 0 (не включительно) до 1, функция СТЮДРАСПОБР вернет код ошибки #ЧИСЛО!. Аналогичная ошибка возникает, если аргумент степени_свободы задан числом, которое меньше 1.
  3. Для расчета односторонней t-величины следует в качестве аргумента вероятность указать значение удвоенной вероятности.

Алгоритм работы

iСервис/Анализ данных/РегрессияxyМетки

  1. Среднее значение: СРЗНАЧ(диапазон)
  2. Квадратическое отклонение: КВАДРОТКЛ(диапазон)
  3. Дисперсия: ДИСП(диапазон)
  4. Дисперсия для генеральной совокупности: ДИСПР(диапазон)
  5. Среднеквадратическое отклонение: СТАНДОТКЛОН(диапазон)
  6. Уравнение регрессии y = b1x1+b2x2+. bnxn+b: ЛИНЕЙН(диапазон Y;диапазон X;1;1) .

Выделите блок ячеек размером (n+1) столбцов и 5 строк.

6. Коэффициенты множественной линейной регрессии вычисляются с помощью функции ЛИНЕЙН . Для того чтобы использовать эту функцию для вычисления параметров множественной регрессии необходимо 1) Сначала выделить на рабочем листе область размером 5x(k+1), где k — число объясняющих переменных. 2) Затем заполнить поля аргументов этой функции, которые имеют тот же смысл, что и в случае парной регрессии: Известные_значения_y — адреса ячеек, содержащих значения признака y; Известные_значения_x — адреса ячеек, содержащих значения всех объясняющих переменных

Обратите внимание: выборочные значения факторов должны располагаться рядом друг с другом (в смежной области), причем предполагается, что в первом столбце (строке) содержатся значения первой объясняющей переменной, во втором столбце — второй и т.д. Константа — значение (логическое), указывающее на наличие свободного члена в уравнении регрессии: укажите в поле Константа значение 1, тогда свободный член рассчитывается обычным образом (если значение поля Константа равно 0, то свободный член полагается равным 0); Статистика — значение (логическое), которое указывает на то, следует ли выводить дополнительную информацию по регрессионному анализу или нет: укажите в поле Статистика значение равное 1, тогда будет выводиться дополнительная регрессионная информация (если Статистика=0, то выводятся только оценки коэффициентов уравнения регрессии);

Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта.

При увеличении расхождения между углами φ1 и φ2 и увеличения численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.

Гипотезы критерия Фишера

H: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 не больше, чем в выборке 2.

H1: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 больше, чем в выборке 2.

Построение графика нормального распределения

Прежде всего необходимо разбить наш массив на периоды. Для этого определяем минимальное и максимальное значение, размер каждого периода или шаг, с которым будет увеличиваться период.

Далее строим таблицу с категориями. Нижняя граница (B11) равняется округленному вниз ближайшему кратному числу. Остальные категории увеличиваются на значение шага. Формула в ячейке B12 и последующих будет выглядеть:

В столбце X будет производится подсчет количества переменных в заданном промежутке. Для этого воспользуемся формулой ЧАСТОТА(), которая имеет два аргумента: массив данных и массив интервалов. Выглядеть формула будет следующим образом =ЧАСТОТА(Data!A1:A175;B11:B20). Также стоит отметить, что в таком варианте данная функция будет работать как формула массива, поэтому по окончании ввода необходимо нажать сочетание клавиш Ctrl+Shift+Enter.

Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Воспользуемся диаграммой вида Гистограмма с группировкой, где по оси значений будет отложено количество переменных в данном промежутке, а по оси категорий – периоды.

Осталось отформатировать диаграмму и наш график с нормальным распределением готов.

Итак, мы познакомились с вами с нормальным распределением, узнали, что Excel позволяет генерировать массив данных с помощью формулы НОРМ.ОБР() для определенного среднего значения и стандартного отклонения и научились приводить данный массив в графический вид.

Студенческий T-Distribution

T-дистрибутив Студента, или просто t-дистрибутив, для псевдонима «Студент» назван Уильямом Сили Госсетом.

Это распределение, которое возникает при попытке оценить среднее нормального распределения с выборками разных размеров

Таким образом, это полезное сокращение при описании неопределенности или ошибки, связанной с оценкой статистики населения для данных, полученных из гауссовых распределений, когда размер выборки должен быть принят во внимание

Хотя вы не можете напрямую использовать t-распределение Стьюдента, вы можете оценивать значения по распределению, требуемому в качестве параметров других статистических методов, таких как тесты статистической значимости.

Распределение может быть описано с использованием одного параметра:

количество степеней свободы: обозначается строчной греческой буквой nu (v), обозначает число степеней свободы.

Ключом к использованию t-распределения является знание желаемого количества степеней свободы.

Число степеней свободы описывает количество единиц информации, используемых для описания количества населения. Например, среднее имеетNстепени свободы как всеNнаблюдения в выборке используются для расчета оценки среднего населения. Статистическая величина, которая использует другую статистическую величину в своем расчете, должна вычесть 1 из степеней свободы, таких как использование среднего значения в расчете дисперсии выборки.

Наблюдения в t-распределении Стьюдента рассчитываются на основе наблюдений в нормальном распределении, чтобы описать интервал для среднего числа населения в нормальном распределении. Наблюдения рассчитываются как:

кудаИксэто наблюдения из гауссовского распределения,имею в видуэто среднее наблюдениеИксS — стандартное отклонение иNобщее количество наблюдений. Полученные наблюдения образуют t-наблюдение с (n — 1) степени свободы.

На практике, если вам требуется значение из t-распределения при расчете статистики, то число степеней свободы, скорее всего, будетn — 1, гдеNэто размер вашей выборки, взятой из гауссовского распределения.

В приведенном ниже примере создается t-распределение с использованием выборочного пространства от -5 до 5 и (10 000 — 1) степеней свободы.

Выполнение примера создает и строит график t-дистрибутива PDF.

Мы можем видеть знакомую форму колокольчика в распределении, очень похожем на нормальное Ключевым отличием являются более толстые хвосты в распределении, что подчеркивает повышенную вероятность наблюдений в хвостах по сравнению с гауссовой.

t.cdf ()Функция может быть использована для создания кумулятивной функции плотности для t-распределения. Пример ниже создает CDF в том же диапазоне, что и выше.

При выполнении примера мы видим знакомую S-образную кривую, как мы видим с гауссовым распределением, хотя с более мягкими переходами от нулевой вероятности к одной вероятности для более толстых хвостов.

Условия применения t-критерия Стьюдента

Несмотря на то, что открытие Стьюдента в свое время совершило переворот в статистике, t-критерий все же довольно сильно ограничен в возможностях применения, т.к. сам по себе происходит из предположения о нормальном распределении исходных данных. Если данные не являются нормальными (что обычно и бывает), то и t-критерий уже не будет иметь распределения Стьюдента. Однако в силу действия центральной предельной теоремы средняя даже у ненормальных данных быстро приобретает колоколообразную форму распределения.

Рассмотрим, для примера, данные, имеющие выраженный скос вправо, как у распределения хи-квадрат с 5-ю степенями свободы.

Теперь создадим 20 тысяч выборок и будет наблюдать, как меняется распределение средних в зависимости от их объема.

Отличие довольно заметно в малых выборках до 15-20-ти наблюдений. Но дальше оно стремительно исчезает. Таким образом, ненормальность распределения – это, конечно, нехорошо, но некритично.

Больше всего t-критерий «боится» выбросов, т.е. аномальных отклонений. Возьмем 20 тыс. нормальных выборок по 15 наблюдений и в часть из них добавим по одному случайном выбросу.

Картина получается нерадостная. Фактические частоты средних сильно отличаются от теоретических. Использование t-распределения в такой ситуации становится весьма рискованной затеей.

Итак, в не очень малых выборках (от 15-ти наблюдений) t-критерий относительно устойчив к ненормальному распределению исходных данных. А вот выбросы в данных сильно искажают распределение t-критерия, что, в свою очередь, может привести к ошибкам статистического вывода, поэтому от аномальных наблюдений следует избавиться. Часто из выборки удаляют все значения, выходящие за пределы ±2 стандартных отклонения от средней.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2 );
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

  1. Нажимаем кнопку «Офис» и переходим на вкладку «Параметры Excel». «Надстройки».
  2. Внизу, под выпадающим списком, в поле «Управление» будет надпись «Надстройки Excel» (если ее нет, нажмите на флажок справа и выберите). И кнопка «Перейти». Жмем.
  3. Открывается список доступных надстроек. Выбираем «Пакет анализа» и нажимаем ОК.

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.

  1. Открываем меню инструмента «Анализ данных». Выбираем «Регрессия».
  2. Откроется меню для выбора входных значений и параметров вывода (где отобразить результат). В полях для исходных данных указываем диапазон описываемого параметра (У) и влияющего на него фактора (Х). Остальное можно и не заполнять.
  3. После нажатия ОК, программа отобразит расчеты на новом листе (можно выбрать интервал для отображения на текущем листе или назначить вывод в новую книгу).

В первую очередь обращаем внимание на R-квадрат и коэффициенты. R-квадрат – коэффициент детерминации

В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо»

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.

Обратная функция t-распределения

Обратная функция используется для вычисления альфа – квантилей , т.е. для вычисления значений x при заданной вероятности альфа , причем х должен удовлетворять выражению P{X альфа .

Функция СТЬЮДЕНТ.ОБР() используется для вычисления как двухсторонних, так и односторонних доверительных интервалов . А функции СТЬЮДЕНТ.ОБР.2Х() и СТЬЮДРАСПОБР() созданы специально для вычисления квантилей , необходимых для расчета двусторонних доверительных интервалов: в качестве аргумента нужно указывать уровень значимости альфа , а не альфа/2 , как для СТЬЮДЕНТ.ОБР() .

Вышеуказанные функции можно взаимозаменять, т.к. нижеуказанные формулы возвращают одинаковый результат: =СТЬЮДЕНТ.ОБР(альфа;n) =-СТЬЮДРАСПОБР(альфа*2;n) =-СТЬЮДЕНТ.ОБР.2Х(альфа*2;n)

Некоторые примеры расчетов приведены в файле примера на листе Функции .

Примечание : Ниже приведено соответствие русских и английских названий функций: СТЬЮДЕНТ.РАСП.ПХ() – англ. название T.DIST.RT, т.е. T-DISTribution Right Tail, the right-tailed Student’s t-distribution СТЬЮДЕНТ.РАСП.2Х() – англ. название T.DIST.2T, т.е. T-DISTribution 2 Tails СТЬЮДЕНТ.ОБР() – англ. название T.INV, т.е. T-distribution INVerse СТЬЮДРАСП() – англ. название TDIST, т.е. T-DISTribution СТЬЮДРАСПОБР() – англ. название TINV, т.е. T-distribution INVerse (the right-tailed inverse of the Student’s t-distribution) СТЬЮДЕНТ.ОБР.2Х() – англ. название T.INV.2T

FРАСПОБР (функция FРАСПОБР)

​ раздел «Анализ данных»,​ 23 предприятий о:​расч​10​ с применяемыми функциями​

​799 000 000,00 ₽​ математического описания функции​Знаменатель степеней свободы​ определить критическое значение​Вероятность​0,9729551​ используется для проверки​ вычисления верхнего квантиля.​ правостороннюю вероятность, т.е.​В файле примера на​2​

​Определение​​ где можно произвести​ X — цена​Регрессия​Стандартное отклонение для rxy​ в пакете Excel​85 000 000,00 ₽​ ФИШЕР, имеет вид:​Формула​ F, нужно использовать​ — обязательный аргумент.​Возвращает значение, обратное (правостороннему)​ гипотез с помощью​ Т.е. если в​ P(X>x)). Функция FРАСП()​ листе График приведены​

​), из которых сделаны​: Если U​ математическую статистику. Мне​ на товар А,​

Синтаксис

​=КОРЕНЬ((1-C8^2)/4)​ приведены на рисунке​

​Схема решения таких задач​​Z’=1/2*ln(1+x)/(1-x)​Описание​ уровень значимости как​

​ Вероятность, связанная с​​ F-распределению вероятностей. Если​ коэффициента корреляции.​

​ качестве аргумента функции​​ оставлена в MS​ графики плотности распределения​

Замечания

​ выборки размером n​1​ нужно расчитать критерий​ тыс. руб.; Y​

​227,407​Таким образом, с вероятностью​ 1.​

​ выглядит следующим образом:​Рассмотрим применение данной функции​Результат​ аргумент «вероятность» функции​

​ интегральным F-распределением.​ p = FРАСП(x;. ),​ФИШЕР(x)​ указан уровень значимости,​ EXCEL 2010 для​

​ вероятности и интегральной​1​и U​ Фишера. Его можно​ — прибыль торгового​

​7,075​ 0,95 линейный коэффициент​Рисунок 1 – Пример​Рассчитывается линейный коэффициент корреляции​ на 3-x конкретных​=FРАСПОБР(A2;A3;A4)​ FРАСПОБР.​Степени_свободы1​ то FРАСПОБР(p;. ) =​Аргументы функции ФИШЕР описаны​ например 0,05, то​ совместимости. Аналогом FРАСП()​ функции распределения.​и n​

​2​ вычислить двумя способами.​ предприятия, млн. руб,​Остаток​ корреляции заключен в​ расчетов.​ r​ примерах.​Значение, обратное F-распределению вероятностей​По заданному значению вероятности​ — обязательный аргумент.​ x.​ ниже.​ функция вернет такое​

Пример

​ является функция F.РАСП.ПХ(),​Примечание​2​независимые случайные величины,​ Есть раздел «Регрессия»​ производится изучение их​1607,014​ интервале от (–0,386)​№ п/п​xy​​ для приведенных выше​ функция FРАСПОБР ищет​

​ Числитель степеней свободы.​

​F-распределение может использоваться в​

​ значение случайной величины​ появившаяся в MS​

​: Для построения функции​

​ имеющие ХИ2-распределение с​

​ и «Однофакторный дисперсионный​

​ зависимости. Оценка регрессионной​

​;​Пример 1. Используя данные​ данных​

Инструменты Excel для построения интервальных оценок параметров распределений

Все, рассмотренные в этом разделе инструменты вычисляют значения квантилей как значения функций, обратных соответствующим функциям распределения. Все эти функции – библиотечные функции Excel из группы функций «Статистические»,.

Функция вычисления критических точек распределения Лапласа

Функция возвращает (вычисляет) значения квантили уровня, равного значению, введенному в поле «Вероятность» (понятно, что это число из промежутка (0б 1)) стандартного нормального распределения.

Функция вычисления критических точек распределения Стьюдента

Функция возвращает (вычисляет) значения квантили уровня, равного значению, введенному в поле «Вероятность» (понятно, что это число из промежутка (0б 1)) распределения Стьюдента с числом степеней свободы, равным значению, введенному в поле «Степени свободы» (понятно, что это натуральное число).

Важно знать, что функция Excel СТЬЮДРАСПОБР( p , k ) возвращает значение t , при котором P (| x | > t ) = p , x — значение случайной величины, имеющей распределение Стьюдента с k степенями свободы. Поэтому решение уравнения

Поэтому решение уравнения

n

Функция вычисления критических точек распределения

Функция возвращает (вычисляет) значения квантили уровня, равного значению, введенному в поле «Вероятность» (понятно, что это число из промежутка (0б 1)) распределения

В Excel функция распределения случайной величины определена нестандартно: F x ( x ) = P ( x > x ). Поэтому для вычисления квантиля

Квартили непрерывного распределения

Если функция распределения F (х) случайной величины х непрерывна, то 1-й квартиль является решением уравнения F(х) =0,25, второй – F(х) =0,5, а третий F(х) =0,75.

Примечание : Подробнее о Функции распределения см. статью Функция распределения и плотность вероятности в MS EXCEL .

Если известна функция плотности вероятности p (х) , то 1-й квартиль можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2 ), получим, что медиана (2-й квартиль ) вычисляется по формуле e μ или в MS EXCEL =EXP(μ). При μ=1, медиана равна 2,718.

Обратите внимание на точку Функции распределения , для которой F(х)=0,5 (см. картинку выше или файл примера , лист Квартиль-распределение)

Абсцисса этой точки равна 2,718. Это и есть значение 2-го квартиля ( медианы ), что естественно совпадает с ранее вычисленным значением по формуле e μ .

Примечание : Напомним, что интеграл от функции плотности вероятности по всей области задания случайной величины равен единице:

Поэтому, линии квартилей ( х=квартиль ) делят площадь под графиком функции плотности вероятности на 4 равные части.

Статистический анализ роста доли дохода в Excel за период

Пример 2. В таблице приведены данные о доходах предпринимателя за год. Доказать, что примерно 75% значений меньше, чем третий квартиль доходов.

Вид исходной таблицы:

Определим 3-й по формуле:

Определим соотношение чисел, меньше полученного числа, к общему количеству значений по формуле:

=СЧЁТЕСЛИ(B2:B13;” Пример 3. Имеется диапазон случайных чисел, отсортированный в порядке возрастания. Определить соотношение суммы чисел, которые меньше 1-го квартиля, к сумме чисел, которые превышают значение 1-го квартиля.

Чтобы сгенерировать случайное число в Excel воспользуемся функцией:

После генерации отсортируем случайно сгенерированные числа по возрастанию. Вид исходной таблицы данных со случайными числами:

Формула для расчета имеет следующий вид (формула массива CTRL+SHIFT+ENTER):

Функции СУММ с вложенными функциями ЕСЛИ выполняют расчет суммы только тех чисел, которые меньше и больше соответственно значения, возвращаемого функцией для исследуемого диапазона. Из полученных значений вычисляется частное. Результат расчетов:

Общая сумма чисел исследуемого диапазона, которые меньше 1-го квартиля, составляет всего 8,57% от общей суммы чисел, которые больше 1-го квартиля.

Расчет квартилей в R и SAS

Функция quantile в R использует все девять алгоритмов расчета квантилей, в соответствии с нумерацией, предложенной Hyndman and Fan в работе 1996 г. (рис. 15; если вы не знакомы с R, рекомендую начать с Алексей Шипунов. Наглядная статистика. Используем R! ). Квантиль при i-м методе расчета:

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: