Как самостоятельно рассчитать доверительный интервал в Excel?
Расчет доверительного интервала в Excel (т.е. верхней и нижней границы прогноза) рассмотрим на примере. У нас есть временной ряд — продажи по месяцам за 5 лет. См. Вложенный файл.
Для расчета границ прогноза рассчитаем:
- Прогноз продаж (см. статью «Как самостоятельно рассчитать прогноз продаж с учетом роста и сезонностью»).
- Сигма — среднеквадратическое отклонение модели прогноза от фактических значений.
- Три сигма.
- Доверительный интервал.
1. Прогноз продаж.
О том, «как рассчитать прогноз продаж с учетом роста и с сезонностью» подробно описано в данной статье. Поэтому для тех, кто еще не изучал данный материал и не знает, как самостоятельно рассчитать прогноз продаж по месяцам с учетом роста и сезонности, рекомендуем для понимания последующих действий изучить данную статью, а затем перейти к дальнейшему изучению данного материала.
Для расчета сигма рассчитаем среднеквадратическое отклонение для каждого месяца.
1. Для этого на 7-м шаге во вложенном файле рассчитаем значения прогнозной модели, в нашем случае это прогноз с линейным трендом и сезонностью.
Значение модели = Значение тренда умножим на коэффициент сезонности соответствующего месяца.
В Excel введем формулу:
=RC (ссылка на тренд)*ВПР(RC;R8C9:R19C10;2;0)(формула ВПР со ссылкой на коэффициент сезонности соответствующего месяца)
2. Рассчитаем квадрат разницы фактических значений и прогнозной модели (Xi-Ximod)^2 (8 этап во вложенном файле)
=(RC(данные во временном ряду) — RC(значение модели))^2(в квадрате)
3. Просуммируем для каждого месяца значения отклонений из 8 этапа Сумма((Xi-Ximod)^2), т.е. просуммируем январи, феврали… для каждого года.
Для этого воспользуемся формулой =СУММЕСЛИ()
=СУММЕСЛИ(массив с номерами периодов внутри цикла (для месяцев от 1 до 12);ссылка на номер периода в цикле; ссылка на массив с квадратами разницы исходных данных и значений периодов)
(9 этапво вложенном файле)
4. Рассчитаем среднеквадратическое отклонение для каждого периода в цикле от 1 до 12 (10 этапво вложенном файле).
Для этого из значения рассчитанного на 9 этапе мы извлекаем корень и делим на количество периодов в этом цикле минус 1 = КОРЕНЬ((Сумма(Xi-Ximod)^2/(n-1))
Воспользуемся формулами в Excel =КОРЕНЬ(R8 (ссылка на (Сумма(Xi-Ximod)^2)/(СЧЁТЕСЛИ($O$8:$O$67 (ссылка на массив с номерами цикла); O8 (ссылка на конкретный номер цикла, которые считаем в массиве))-1))
С помощью формулы Excel = СЧЁТЕСЛИ мы считаем количество n
Рассчитав среднеквадратическое отклонение фактических данных от модели прогноза, мы получили значение сигма для каждого месяца — этап 10 во вложенном файле.
На 11 этапе задаем количество сигм — в нашем примере «3» (11 этапво вложенном файле):
Также удобные для практики значения сигма:
1,64 сигма — 10% вероятность выхода за предел (1 шанс из 10);
1,96 сигма — 5% вероятность выхода за пределы (1 шанс из 20);
2,6 сигма — 1% вероятность выхода за пределы (1 шанс из 100).
5) Рассчитываем три сигма, для этого мы значения «сигма» для каждого месяца умножаем на «3».
3.Определяем доверительный интервал.
- Верхняя граница прогноза — прогноз продаж с учетом роста и сезонности + (плюс) 3 сигма;
- Нижняя граница прогноза — прогноз продаж с учетом роста и сезонности – (минус) 3 сигма;
Для удобства расчета доверительного интервала на длительный период (см. вложенный файл) воспользуемся формулой Excel =Y8+ВПР(W8;$U$8:$V$19;2;0), где
Y8 — прогноз продаж;
W8 — номер месяца, для которого будем брать значение 3-х сигма;
$U$8:$V$19 — таблица, из которой с помощью функции =ВПР извлекаем значение 3-х сигма, соответствующее данному месяцу, фиксируем ссылку на таблицу с помощью F4, подробнее в статье «Как зафиксировать ссылку в Excel».
Т.е. Верхняя граница прогноза = «прогноз продаж» + «3 сигма» (в примере, ВПР(номер месяца; таблица со значениями 3-х сигма; столбец, из которого извлекаем значение сигма равное номеру месяца в соответствующей строке;0)).
Нижняя граница прогноза = «прогноз продаж» минус «3 сигма».
Итак, мы рассчитали доверительный интервал в Excel.
Теперь у нас есть прогноз и диапазон с границами в пределах, которого с заданной вероятностью сигма попадут фактические значения.
В данной статье мы рассмотрели, что такое сигма и правило трёх сигм, как определить доверительный интервал и для чего вы можете использовать данную методику на практике.
Калькулятор доверительного интервала
Что такое доверительный интервал?
Простое определение доверительного интервала — это диапазон значений, включающий параметр генеральной совокупности. Значение этого параметра неизвестно. Когда дело доходит до лучшего варианта расчета, лучше всего использовать калькулятор доверительного интервала.
Формула доверительного интервала
Доверительный интервал можно рассчитать по следующей формуле:
\ (\ textbf {Значение нижней границы = Среднее значение (x) — Погрешность} \)
\ (\ textbf {Верхний Связанное значение = среднее значение (x) + предел погрешности} \)
Доверительный интервал зависит от стандартной ошибки и допустимой погрешности.Формула для стандартного отклонения может быть выражена как:
Стандартная ошибка \ (= \ dfrac {\ sigma} {\ sqrt {n}} \)
Формула для погрешности может быть записана как:
Предел погрешности ошибка \ (= \ text {стандартная ошибка} \ times \ text {Z} (0.95) \).
Где Z (0,95) представляет собой z-оценку, равную 95% доверительному уровню. Если вы используете определенный уровень достоверности, вместо этого фактора необходимо определить правильный z-показатель.
Как рассчитать доверительный интервал?
Здесь мы проиллюстрируем метод нахождения доверительного интервала с использованием приведенных выше формул.Выполните следующие шаги, чтобы вычислить доверительный интервал:
- Определите и запишите значения
- Вычислите стандартную ошибку, используя формулу стандартной ошибки
- Вычислите предел погрешности, используя формулу предельной погрешности
- Для вычисления верхней и нижней границы доверительного интервала, добавьте и вычтите погрешность из среднего значения.
Пример:
Как найти 95% доверительный интервал?
Давайте разберемся с порядком вычисления доверительного интервала на примере.
Предположим, что имеется выборка из 50 чаш разных размеров. Стандартное отклонение составляет 4 , а средний размер равен 10. Каким будет доверительный интервал?
Решение:
Мы рассчитаем доверительный интервал, используя приведенные выше формулы шаг за шагом. Выполните следующие шаги, чтобы получить доверительный интервал для данных значений:
Определите и запишите значения.
\ (\ sigma = 4, n = 50, \ Mu = 10 \)
Рассчитайте стандартную ошибку, используя уравнение стандартной ошибки.
Стандартная ошибка \ (= \ dfrac {\ sigma} {\ sqrt {n}} = \ dfrac {4} {\ sqrt {50}} = 0,56 \)
Рассчитайте предел погрешности с использованием уравнения погрешности. Предел погрешности будет определяться на основе вычисленного выше стандартного значения ошибки.
Предел погрешности \ (= \ text {Стандартная ошибка} \ times Z (0,95) \)
Здесь член \ (Z (0,95) \) определяет значение Z-оценки при доверительном интервале 95%. ,Обратитесь к этой таблице Z, чтобы получить значение Z. В этом случае \ (Z = 1.758 \).
Предел погрешности \ (= 0,56 \ раз 1,758 = 0,98 \)
Теперь, чтобы вычислить верхнюю и нижнюю границы доверительного интервала, сложите и вычтите предел погрешности из среднее значение.
Среднее значение = 10
Следовательно, диапазон будет записан как:
\ (10 - 0,98 \ leftrightarrow 10 + 0,98 \)
Итак,
Нижняя граница \ (= 9.02 \)
Верхняя граница \ (= 10.98 \)
Как пользоваться нашим калькулятором доверительного интервала?
Чтобы использовать наш калькулятор доверительного интервала:
- Выберите значение из исходных данных или Среднее и стандартное отклонение.
- Выберите уровень достоверности из списка. 95 Уровень достоверности будет выбран по умолчанию, если вы не выберете уровень достоверности.
- Введите среднее значение и значение стандартного отклонения в указанные поля ввода.
- Введите размер выборки в данное поле ввода.
- Нажмите кнопку Рассчитать , чтобы увидеть результат.
Калькулятор доверительного интервала мгновенно вычислит доверительный интервал с выбранным уровнем достоверности и покажет вам доверительный интервал, а также допустимую погрешность. Вы можете использовать наш калькулятор стандартного отклонения, чтобы рассчитать стандартное отклонение для доверительного интервала.
Часто задаваемые вопросы
Что означает 95% доверительный интервал?
Уровень достоверности 95% означает, что в 95% случаев результаты будут представлять результаты для всей популяции, если исследование или эксперимент были воспроизведены.Иногда из-за времени или затрат невозможно опросить всех.
Что такое хороший доверительный интервал?
Ваша статистическая точность зависит от изменчивости и размера выборки. Низкая изменчивость или больший размер выборки соответствуют более узкому доверительному интервалу с более низкой погрешностью. Более высокая вариабельность или меньший размер выборки могут привести к большему доверительному интервалу с
Описание
Возвращает доверительный интервал для среднего генеральной совокупности с нормальным распределением.
Доверительный интервал — это диапазон значений. Выборка “x” находится в центре этого диапазона, а диапазон — x ± ДОВЕРИТ. Например, если x — это пример времени доставки продуктов, заказаных по почте, то x ± ДОВЕРИТ — это диапазон средств численности населения. Для любого средней численности населения (μ0) в этом диапазоне вероятность получения выборки от μ0 больше, чем x, больше, чем альфа; для любого средней численности населения (μ0, не в этом диапазоне), вероятность получения выборки от μ0 больше, чем x, меньше, чем альфа. Другими словами, предположим, что для построения двунамерного теста на уровне значимости альфа гипотезы о том, что это μ0, используются значения x, standard_dev и размер. Тогда мы не отклонить эту гипотезу, если μ0 находится через доверительный интервал, и отклонить эту гипотезу, если μ0 не находится в доверительный интервал. Доверительный интервал не позволяет нам сделать вывод о том, что вероятность 1 — альфа, что следующий пакет займет время доставки через доверительный интервал.
Важно: Эта функция была заменена одной или несколькими новыми функциями, которые обеспечивают более высокую точность и имеют имена, лучше отражающие их назначение. Хотя эта функция все еще используется для обеспечения обратной совместимости, она может стать недоступной в последующих версиях Excel, поэтому мы рекомендуем использовать новые функции
Чтобы узнать больше о новых функциях, см. в разделах Функция ДОВЕРИТ.НОРМ и Функция ДОВЕРИТ.СТЬЮДЕНТ.
Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример
Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить
не только возможную
зависимость результативного признака от двух факторов — A и B, но и возможное
взаимодействие факторов A и B. Тогда
a — число градаций фактора A и b — число градаций фактора B, r —
число повторений. В
статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:
,
где
— общая сумма квадратов отклонений,
— объяснённая
влиянием фактора сумма квадратов отклонений,
— объяснённая
влиянием фактора сумма квадратов отклонений,
— объяснённая
влиянием взаимодействия факторов и сумма квадратов отклонений,
— необъяснённая сумма
квадратов отклонений или сумма квадратов отклонений ошибки,
—
общее среднее наблюдений,
—
среднее наблюдений в каждой градации фактора ,
—
среднее число наблюдений в каждой градации фактора ,
—
среднее число наблюдений в каждой комбинации градаций факторов
и ,
— общее число наблюдений.
Дисперсии вычисляются следующим образом:
—
дисперсия, объяснённая влиянием фактора ,
—
дисперсия, объяснённая влиянием фактора ,
—
дисперсия, объяснённая взаимодействием факторов и ,
—
необъяснённая дисперсия или дисперсия ошибки,
где
—
число степеней свободы дисперсии, объяснённой влиянием фактора ,
—
число степеней свободы дисперсии, объяснённой влиянием фактора ,
—
число степеней свободы дисперсии, объяснённой взаимодействием факторов и ,
—
число степеней свободы необъяснённой дисперсии или дисперсии ошибки,
—
общее число степеней свободы.
Если факторы не зависят друг от друга, то для определения существенности факторов
выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:
для фактора :
,
: не все равны;
для фактора :
,
: не все равны;
для взаимодействия факторов и :
,
: ABij ≠ 0
для всех i и j.
Чтобы определить влияние фактора , нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .
Чтобы определить влияние фактора , нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .
Чтобы определить влияние взаимодействия факторов и
, нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .
Если фактическое отношение Фишера больше критического отношения Фишера, то следует
отклонить нулевую гипотезу с уровнем значимости . Это означает,
что фактор существенно влияет на данные: данные зависят от фактора с вероятностью
.
Если фактическое отношение Фишера меньше критического отношения Фишера, то следует
принять нулевую гипотезу с уровнем значимости . Это означает,
что фактор не оказывает существенного влияния на данные с вероятностью
.
Двухфакторный дисперсионный анализ с повторениями: пример
Пример 4. Торговое предприятие имеет три магазина —
, и .
Проводятся две рекламные кампании. Требуется выяснить, зависят ли средние дневные доходы магазинов от
двух рекламных кампаний. Для процедуры проверки случайно выбраны по 3 дня каждой рекламной кампании
(то есть число повторений ). Результаты обобщены
в таблице:
Рекламная кампания | Магазин |
Рекламная кампания 1 | 12,05 |
23,94 | |
14,63 | |
Рекламная кампания 2 | 25,78 |
17,52 | |
18,45 | |
Среднее | 18,73 |
Магазин | Магазин | Среднее |
15,17 | 9,48 | 14,53 |
18,52 | 6,92 | |
19,57 | 10,47 | |
21,40 | 7,63 | 15,86 |
13,59 | 11,90 | |
20,57 | 5,92 | |
18,14 | 8,72 |
Факторы, подлежащие проверке: магазин (, и )
и рекламная кампания (1 и 2). Пусть эти факторы не зависят друг от друга.
Вычислим суммы квадратов отклонений:
,
,
,
.
Числа степеней свободы:
,
,
,
,
.
Дисперсии:
,
,
,
.
Фактические отношения Фишера:
для фактора :
для фактора :
для взаимодействия факторов и :
.
Критические значения отношения Фишера:
для фактора : ,
для фактора :
для взаимодействия факторов и :
.
Делаем выводы:
о влиянии фактора : фактическое отношение Фишера
меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%,
о влиянии фактора : фактическое отношение Фишера
больше критического, следовательно, доходы существенно различаются между магазинами,
о взаимодействии факторов и :
фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного
магазина не существенно.
Как построить доверительный интервал нормального распределения в Excel
Поскольку интервал значений, в котором находится некоторая неизвестная величина, совпадает с областью, в которой могут изменяться значения этой величины, то вероятность правильности оценки данной величины стремится к нулю. Поэтому, принято устанавливать определенное значение вероятности для нахождения границ изменения некоторой величины. Значения, находящиеся между этими границами, называют доверительным интервалом.
Рассматриваемая функция была заменена функцией ДОВЕРИТ.НОРМ с версии Excel 2010. Функция ДОВЕРИТ была оставлена для обеспечения совместимости с документами, созданными в более ранних версиях табличного редактора.
Функция ДОВЕРИТ и нормальный доверительный интервал в Excel
Функция ДОВЕРИТ в Excel предназначена для определения доверительного интервала для среднего значения, найденного для генеральной совокупности, которая имеет нормальное распределение.
Другими словами, рассматриваемая функция позволяет определить допустимые отклонения для найденного среднего значения с учетом известных уровня значимости (заданная вероятность того, что некоторое значение находится в доверительном интервале) и стандартного отклонения (меры степени разброса значений относительно среднего значения для генеральной совокупности).
Как построить доверительный интервал нормального распределения в Excel
Поскольку интервал значений, в котором находится некоторая неизвестная величина, совпадает с областью, в которой могут изменяться значения этой величины, то вероятность правильности оценки данной величины стремится к нулю. Поэтому, принято устанавливать определенное значение вероятности для нахождения границ изменения некоторой величины. Значения, находящиеся между этими границами, называют доверительным интервалом.
Рассматриваемая функция была заменена функцией ДОВЕРИТ.НОРМ с версии Excel 2010. Функция ДОВЕРИТ была оставлена для обеспечения совместимости с документами, созданными в более ранних версиях табличного редактора.
Пример расчета доверительного интервала в Excel
Пример 1. В заводском цехе производят деталь, длина которой должна составлять 200 мм. Стандартное отклонение от длины – 3,6 мм. Для контроля качества деталей из партии (генеральная совокупность) делают выборку из 25 деталей. Определить интервал с доверительный уровнем 95%.
Вид таблицы данных:
Для определения доверительного интервала используем функцию:
- 1-B2 – уровень значимости (рассчитан с учетом зависимости от доверительного уровня);
- B3 – значение стандартного отклонения;
- B4 – количество деталей в выборке.
То есть, границы доверительного интервала соответствуют: (Xср-1,4112;Xср+1,4112). Допустим, было определено среднее значение выборки – 199,5 мм. Тогда доверительный интервал примерно определяется как (198,1;200,9), при этом номинальная длина детали (200 мм) находится в доверительном диапазоне, то есть производственный процесс не нарушен.
Как найти границы доверительного интервала в Excel
Пример 2. Были проведены опыты по определению скорости распространения звуковой волны в воздухе. Результаты 10 опытов записаны в таблицу. Определить левую и правую границы доверительного интервала для среднего значения.
Вид таблицы данных:
Для нахождения левой границы используем формулу:
В данном случае выборка и генеральная совокупность приняты как имеющиеся данные для 10 проведенных опытов. Среднее выборочное значение рассчитано с помощью функции СРЗНАЧ. Для получения левой границы доверительного интервала из данного значения вычитаем число, полученное в результате выполнения функции ДОВЕРИТ, в которой значение второго аргумента определено с помощью функции СТАНДОТКЛОН.Г, а число опытов – подсчетом количества ячеек функцией СЧЁТЗ.
Поскольку уровень значимости не задан, используем стандартное значение – 0,05.
Правая граница определяется аналогично с разницей в том, что к среднему значению выборки прибавляется результат расчета функции ДОВЕРИТ:
Доверительный интервал для оценки среднего (дисперсия известна) в EXCEL
Построим в MS EXCEL доверительный интервал для оценки среднего значения распределения в случае известного значения дисперсии.
В статье Статистики, выборочное распределение и точечные оценки в MS EXCEL дано определение точечной оценки параметра распределения (point estimator). Однако, в силу случайности выборки, точечная оценка не совпадает с оцениваемым параметром и более разумно было бы указывать интервал, в котором может находиться неизвестный параметр при наблюденной выборке х 1 , x 2 , . х n . Поэтому цель использования доверительных интервалов состоит в том, чтобы по возможности избавиться от неопределенности и сделать как можно более полезный статистический вывод .
Примечание : Процесс обобщения данных выборки , который приводит к вероятностным утверждениям обо всей генеральной совокупности , называют статистическим выводом (statistical inference).
СОВЕТ : Для построения Доверительного интервала нам потребуется знание следующих понятий:
К сожалению, интервал, в котором может находиться неизвестный параметр, совпадает со всей возможной областью изменения этого параметра, поскольку соответствующую выборку , а значит и оценку параметра , можно получить с ненулевой вероятностью. Поэтому приходится ограничиваться нахождением границ изменения неизвестного параметра с некоторой заданной наперед вероятностью.
Определение : Доверительным интервалом называют такой интервал изменения случайной величины , которыйс заданной вероятностью , накроет истинное значение оцениваемого параметра распределения.
Эту заданную вероятность называют уровнем доверия (или доверительной вероятностью ).
Обычно используют значения уровня доверия 90%; 95%; 99%, реже 99,9% и т.д. Например, уровень доверия 95% означает, что дополнительное событие, вероятность которого 1-0,95=5%, исследователь считает маловероятным или невозможным.
Примечание Вероятность этого дополнительного события называется уровень значимости или ошибка первого рода . Подробнее см. статью Уровень значимости и уровень надежности в MS EXCEL .
Разумеется, выбор уровня доверия полностью зависит от решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.
Примечание Построение доверительного интервала в случае, когда стандартное отклонение неизвестно, приведено в статье Доверительный интервал для оценки среднего (дисперсия неизвестна) в MS EXCEL . О построении других доверительных интервалов см. статью Доверительные интервалы в MS EXCEL .
Квантили распределения Стьюдента
Аналогичным образом квантили вычисляются и для распределения Стьюдента . Например, вычислять верхний α/2- квантиль распределения Стьюдента с n -1 степенью свободы требуется, если проводится проверка двухсторонней гипотезы о среднем значении распределения при неизвестной дисперсии ( см. эту статью ).
Для верхних квантилей распределения Стьюдента часто используется запись t α/2,n-1 . Если такая запись встретилась в статье про проверку гипотез или про построение доверительного интервала , то это именно верхний квантиль .
Примечание : Функция плотности вероятности распределения Стьюдента , как и стандартного нормального распределения , является четной функцией.
Чтобы вычислить в MS EXCEL верхний 0,05/2 – квантиль для t-распределения с 10 степенями свободы (или тоже самое двусторонний 0,05-квантиль ), необходимо записать формулу =СТЬЮДЕНТ.ОБР.2Х(0,05; 10) или =СТЬЮДРАСПОБР(0,05; 10) или =СТЬЮДЕНТ.ОБР(1-0,05/2; 10) или =-СТЬЮДЕНТ.ОБР(0,05/2; 10)
.2X означает 2 хвоста, т.е. двусторонний квантиль .
Анализ статистики случайно сгенерированных чисел в Excel
Пример 3. Имеется диапазон случайных чисел, отсортированный в порядке возрастания. Определить соотношение суммы чисел, которые меньше 1-го квартиля, к сумме чисел, которые превышают значение 1-го квартиля.
Чтобы сгенерировать случайное число в Excel воспользуемся функцией:
=СЛУЧМЕЖДУ(0;1000)
После генерации отсортируем случайно сгенерированные числа по возрастанию. Вид исходной таблицы данных со случайными числами:
Формула для расчета имеет следующий вид (формула массива CTRL+SHIFT+ENTER):
Функции СУММ с вложенными функциями ЕСЛИ выполняют расчет суммы только тех чисел, которые меньше и больше соответственно значения, возвращаемого функцией для исследуемого диапазона. Из полученных значений вычисляется частное. Результат расчетов:
Общая сумма чисел исследуемого диапазона, которые меньше 1-го квартиля, составляет всего 8,57% от общей суммы чисел, которые больше 1-го квартиля.
Расчет квартилей в R и SAS
Функция quantile в R использует все девять алгоритмов расчета квантилей, в соответствии с нумерацией, предложенной Hyndman and Fan в работе 1996 г. (рис. 15; если вы не знакомы с R, рекомендую начать с Алексей Шипунов. Наглядная статистика. Используем R!). Квантиль при i-м методе расчета:
где i – номер метода, 1 ≤ i ≤ 9, (j–m)/n ≤ p < (j–m+1)/n, хj – j-ый порядковый элемент упорядоченного ряда, n – размер выборки, γ является функцией двух параметров: j = floor(np + m) и g = np + m – j, где floor – функция возвращающая наибольшее целое, но всё еще меньшее, чем аргумент функции (аналог в Excel – ОКРВНИЗ.МАТ), m – константа, определяемая типом алгоритма расчета квантиля. Если вас интересуют подробности, обратитесь к справочной системе R.
SAS предлгает 5 методов расчета квантилей.
Подведем итоги
Доверительный интервал пришел к нам из области статистики. Это определенный диапазон, который служит для оценки неизвестного параметра с высокой степенью надежности. Проще всего это будет пояснить на примере.
Предположим, нужно исследовать какую-либо случайную величину, например, скорость отклика сервера на запрос клиента. Каждый раз, когда пользователь набирает адрес конкретного сайта, сервер реагирует на это с разной скоростью. Таким образом, исследуемое время отклика имеет случайный характер. Так вот, доверительный интервал позволяет определить границы этого параметра, и затем можно будет утверждать, что с вероятностью в 95% сервера будет находиться в рассчитанном нами диапазоне.
Или же нужно узнать, какому количеству людей известно о торговой марке фирмы. Когда будет подсчитан доверительный интервал, то можно будет, к примеру, сказать что с 95% долей вероятности доля потребителей, знающих о данной находится в диапазоне от 27% до 34%.
С этим термином тесно связана такая величина, как доверительная вероятность. Она представляет собой вероятность того, что искомый параметр входит в доверительный интервал. От этой величины зависит то, насколько большим окажется наш искомый диапазон. Чем большее значение она принимает, тем уже становится доверительный интервал, и наоборот. Обычно ее устанавливают равной 90%, 95% или 99%. Величина 95% наиболее популярна.
На данный показатель также оказывает влияние дисперсия наблюдений и Его определение основано на том предположении, что исследуемый признак подчиняется Это утверждение известно также как Закон Гаусса. Согласно ему, нормальным называется такое распределение всех вероятностей непрерывной случайной величины, которое можно описать плотностью вероятностей. Если предположение о нормальном распределении оказалось ошибочным, то оценка может оказаться неверной.
Сначала разберемся с тем, как вычислить доверительный интервал для Здесь возможны два случая. Дисперсия (степень разброса случайной величины) может быть известна либо нет. Если она известна, то наш доверительный интервал вычисляется с помощью следующей формулы:
хср — t*σ / (sqrt(n))
α — признак,
t — параметр из таблицы распределения Лапласа,
σ — квадратный корень дисперсии.
Если дисперсия неизвестна, то ее можно рассчитать, если нам известны все значения искомого признака. Для этого используется следующая формула:
σ2 = х2ср — (хср)2, где
х2ср — среднее значение квадратов исследуемого признака,
(хср)2 — квадрат данного признака.
Формула, по которой в этом случае рассчитывается доверительный интервал немного меняется:
хср — t*s / (sqrt(n))
хср — выборочное среднее,
α — признак,
t — параметр, который находят с помощью таблицы распределения Стьюдента t = t(ɣ;n-1),
sqrt(n) — квадратный корень общего объема выборки,
s — квадратный корень дисперсии.
Рассмотри такой пример. Предположим, что по результатам 7 замеров была определена исследуемого признака, равная 30 и дисперсия выборки, равная 36. Нужно найти с вероятностью в 99% доверительный интервал, который содержит истинное значение измеряемого параметра.
Вначале определим чему равно t: t = t (0,99; 7-1) = 3.71. Используем приведенную выше формулу, получаем:
хср — t*s / (sqrt(n))
30 — 3.71*36 / (sqrt(7))
21.587
Доверительный интервал для дисперсии рассчитывается как в случае с известным средним, так и тогда, когда нет никаких данных о математическом ожидании, а известно лишь значение точечной несмещенной оценки дисперсии. Мы не будем приводить здесь формулы его расчета, так как они довольно сложные и при желании их всегда можно найти в сети.
Отметим лишь, что доверительный интервал удобно определять с помощью программы Excel или сетевого сервиса, который так и называется.