Как рассчитать межквартильный диапазон (iqr) в excel

Как найти выбросы в excel (и как с ними справиться)

Добавление среднего значения

Чтобы добавить данные со средним значение к каждому ящику, выделите ряд под названием Среднее. На картинке выделено голубым.

Скопируйте выделенные данные в буфер обмена с помощью сочетания клавиш Ctrl+C. Затем выделите диаграмму и вставьте скопированные данные с помощью клавиш Ctrl+V. У вас должна получиться следующая картинка.

Щелкните по новому ряду данных правой кнопкой мыши и выберите Изменить тип диаграммы для ряда. В появившемся диалоговом окне Изменение типа диаграммы найдите рад данных Среднее, поменяйте тип диаграммы на Точечная и снимите маркер Вспомогательная ось, если он был установлен.

Наша финальная диаграмма ящик с усами готова. На ней можно увидеть распределение данных от первого до третьего квартиля, медиану и среднее значение.

Как посчитать среднее значение чисел в Excel

Найти среднее арифметическое чисел в Excel можно с помощью функции .

Аргументы СРЗНАЧ

  • число1
    – первое число или диапазон чисел, для расчета среднего арифметического;
  • число2
    (Опционально) – второе число или диапазон чисел для расчета среднего арифметического. Максимальное количество аргументов функции – 255.

Для расчета проделайте следующие шаги:

  • Выделите любую ячейку;
  • Напишите в ней формулу =СРЗНАЧ(
  • Выделите диапазон ячеек, для которого требуется сделать расчет;
  • Нажмите клавишу “Enter” на клавиатуре

Функция рассчитает среднее значение в указанном диапазоне среди тех ячеек, в которых есть числа.

Вычислительные методы

Формула дисперсии:

Населениеотклонениеσ2 (произноситсясигма в квадрате) дискретного набора чисел выражается следующей формулой:

где:XiпредставляетIthединица, начиная с первого наблюдения до последнегоμпредставляет среднее населениеNпредставляет количество единиц в населении

! Помните, что в приведенной выше формуле речь идет о всей совокупности набора данных.

Дляотбор пробмы рассчитываем дисперсию как указано ниже:

отклонениеобразцаs2 (произноситсяв квадрате) выражается несколько иной формулой:

где:XIпредставляетIthединица, начиная с первого наблюдения до последнегоИкспредставляет среднее значение выборкиNпредставляет количество единиц в образце

Что такое квартильное отклонение?

Квартильное отклонение (QD) составляет произведение половины разницы между верхом и. нижние квартили. Математически мы можем определить это следующим образом: Квартильное отклонение = (Q3 — Q1) / 2. Квартильное отклонение определяет абсолютную меру дисперсии.

Также Как найти Q3 в сгруппированных данных?

Как найти квартиль сгруппированных данных?

1. Формула и примеры

  1. Квартиль. Класс Qi = (in4)-е значение наблюдения. …
  2. Децили. Класс Di = (in10)-е значение наблюдения. …
  3. Процентили. …
  4. Рассчитайте Квартиль-3, Децили-7, Процентили-20 из следующих сгруппированных данных. …
  5. Рассчитайте Квартиль-3, Децили-7, Процентили-20 из следующих сгруппированных данных.

Как найти квартиль 3 в сгруппированных данных?

Распределения

Межквартильный размах непрерывного распределения можно рассчитать путем интегрирования функция плотности вероятности (что дает кумулятивная функция распределения — также будут работать любые другие способы расчета CDF). Нижний квартиль, Q1, — такое число, что интеграл PDF от -∞ до Q1 равно 0,25, а верхний квартиль Q3, такое число, что интеграл от -∞ до Q3 равно 0,75; в терминах CDF квартили можно определить следующим образом:

Q1=CDF−1(0.25),{displaystyle Q_ {1} = {ext {CDF}} ^ {- 1} (0,25),}
Q3=CDF−1(0.75),{displaystyle Q_ {3} = {ext {CDF}} ^ {- 1} (0,75),}

где CDF−1 это квантильная функция.

Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.

Распределение Медиана IQR
Нормальный μ 2 Φ−1(0,75) σ ≈ 1,349σ ≈ (27/20) σ
Лаплас μ 2б ln (2) ≈ 1,386б
Коши μ

Тест межквартильного размаха на нормальность распределения

IQR, иметь в виду, и стандартное отклонение населения п можно использовать для простой проверки того, действительно ли п является нормально распределенный, или по Гауссу. Если п нормально распределяется, то стандартная оценка первого квартиля, z1, составляет -0,67, а стандартная оценка третьего квартиля, z3, составляет +0,67. Данный иметь в виду = Икс и стандартное отклонение = σ для п, если п нормально распределяется, первый квартиль

Q1=(σz1)+Икс{displaystyle Q_ {1} = (sigma, z_ {1}) + X}

и третий квартиль

Q3=(σz3)+Икс{displaystyle Q_ {3} = (sigma, z_ {3}) + X}

Если фактические значения первого или третьего квартилей существенно различаются[требуется разъяснение ] из расчетных значений, п не распространяется нормально. Однако нормальное распределение можно тривиально изменить, чтобы сохранить его Q1 и Q2 std. баллы 0,67 и -0,67 и не имеют нормального распределения (так что вышеупомянутый тест даст ложноположительный результат). Лучшая проверка нормальности, например График Q-Q здесь будет указано.

Квартили в MS EXCEL

Чтобы вычислить в MS EXCEL квартили заданного распределения необходимо использовать соответствующую обратную функцию распределения .

При вычислении квартилей в MS EXCEL используются обратные функции распределения : НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР() , ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL .

Например, в MS EXCEL 1-й квартиль для логнормального распределения LnN(1;1) можно вычислить по формуле =ЛОГНОРМ.ОБР(0,25;1;1) , а 3-й квартиль для стандартного нормального распределения по формуле =НОРМ.СТ.ОБР(0,75) .

Поиск выбросов с помощью квартильных функций

Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.

В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.

Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.

Ниже приведена формула для вычисления первого квартиля в ячейке E2:

= QUARTILE.INC ($ B $ 2: $ B $ 15,1)

и вот тот, который вычисляет третий квартиль в ячейке E3:

= QUARTILE.INC ($ B $ 2: $ B $ 15,3)

Теперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).

= F3-F2

Теперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.

Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.

Ниже приведена формула для расчета нижнего предела:

= Квартиль1 - 1,5 * (Межквартильный диапазон)

который в нашем примере становится:

= F2-1,5 * F4

И формула для расчета верхнего предела:

= Квартиль3 + 1,5 * (Межквартильный диапазон)

который в нашем примере становится:

= F3 + 1,5 * F4

Теперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.

Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.

Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.

= ИЛИ (B2 $ F $ 6)

Теперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.

Кроме того, вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.

Примечание:

Свойства дисперсии

Размах вариации

Размах вариации – разница между максимальным и минимальным значением:

Ниже приведена графическая интерпретация размаха вариации.

Видно максимальное и минимальное значение, а также расстояние между ними, которое и соответствует размаху вариации.

С одной стороны, показатель размаха может быть вполне информативным и полезным. К примеру, максимальная и минимальная стоимость квартиры в городе N, максимальная и минимальная зарплата по профессии в регионе и проч. С другой стороны, размах может быть очень широким и не иметь практического смысла, т.к. зависит лишь от двух наблюдений. Таким образом, размах вариации очень неустойчивая величина.

Квантили стандартного нормального распределения

Необходимость в вычислении квантилей стандартного нормального распределения возникает при проверке статистических гипотез и при построении доверительных интервалов.

Примечание : Про проверку статистических гипотез см. статью Проверка статистических гипотез в MS EXCEL . Про построение доверительных интервалов см. статью Доверительные интервалы в MS EXCEL .

В данных задачах часто используется специальная терминология:

  • Нижний квантиль уровняальфа ( α percentage point) ;
  • Верхний квантиль уровня альфа (upper α percentage point) ;
  • Двусторонние квантили уровняальфа .

Нижний квантиль уровня альфа — это обычный α-квантиль. Чтобы пояснить название « нижний» квантиль , построим график плотности вероятности и функцию вероятности стандартного нормального распределения (см. файл примера лист Квантили ).

Выделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение меньше α-квантиля . Из определения квантиля эта вероятность равна α . Из графика функции распределения становится понятно, откуда происходит название » нижний квантиль» — выделенная область расположена в нижней части графика.

Для α=0,05, нижний 0,05-квантиль стандартного нормального распределения равен -1,645. Вычисления в MS EXCEL можно сделать по формуле:

Однако, при проверке гипотез и построении доверительных интервалов чаще используется «верхний» α-квантиль. Покажем почему.

Верхним α — квантилем называют такое значение x α , для которого вероятность, того что случайная величина X примет значение больше или равное x α равна альфа: P(X>= x α )= α . Из определения понятно, что верхний альфа — квантиль любого распределения равен нижнему (1- α) — квантилю. А для распределений, у которых функция плотности распределения является четной функцией, верхний α — квантиль равен нижнему α — квантилю со знаком минус . Это следует из свойства четной функции f(-x)=f(x), в силу симметричности ее относительно оси ординат.

Действительно, для α=0,05, верхний 0,05-квантиль стандартного нормального распределения равен 1,645. Т.к. функция плотности вероятности стандартного нормального распределения является четной функцией, то вычисления в MS EXCEL верхнего квантиля можно сделать по двум формулам:

Чтобы пояснить название « верхний» квантиль , построим график плотности вероятности и функцию вероятности стандартного нормального распределения для α=0,05.

Выделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение больше верхнего 0,05-квантиля , т.е. больше значения 1,645. Эта вероятность равна 0,05.

На графике плотности вероятности площадь выделенной области равна 0,05 (5%) от общей площади под графиком (равна 1). Из графика функции распределения становится понятно, откуда происходит название «верхний» квантиль — выделенная область расположена в верхней части графика. Если Z больше верхнего квантиля , т.е. попадает в выделенную область, то нулевая гипотеза отклоняется.

Также при проверке двухсторонних гипотез и построении соответствующих доверительных интервалов иногда используется понятие «двусторонний» α-квантиль. В этом случае условие отклонения нулевой гипотезы звучит как |Z |>Z α /2 , где Z α /2 – верхний α/2-квантиль . Чтобы не писать верхний α/2-квантиль , для удобства используют «двусторонний» α-квантиль. Почему двусторонний? Как и в предыдущих случаях, построим график плотности вероятности стандартного нормального распределения и график функции распределения .

Невыделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение между нижним квантилем уровня α /2 и верхним квантилем уровня α /2, т.е. будет между значениями -1,960 и 1,960 при α=0,05. Эта вероятность равна в нашем случае 1-(0,05/2+0,05/2)=0,95. Если Z попадает в одну из выделенных областей, то нулевая гипотеза отклоняется.

Вычислить двусторонний 0,05 — квантиль это можно с помощью формул MS EXCEL: =НОРМ.СТ.ОБР(1-0,05/2) или =-НОРМ.СТ.ОБР(0,05/2)

Другими словами, двусторонние α-квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью α.

Понимание отклонения и стандартного отклонения на примере (Src):

Давайте разберемся с дисперсией населения σ2 и стандартным отклонением σ на примере, приведенном ниже

Набор данных A:

A =

Значит население значит (μ) из:(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12Означать (μ) = 6

Рассчитайте отклонение отдельных значений от среднего (6 рассчитано выше) путем вычитания среднего из каждого значения в наборе данных с использованием приведенной ниже формулы:

= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2

Квадрат каждого отдельного значения отклонения

= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4

Рассчитать среднее значение квадрата отклонения

= (4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12

отклонениеσ2= 1,17

Вычислить квадратный корень из дисперсии

Стандартное отклонениеσ= 1,08

Набор данных B:

B =

Значит население значит (μ) набора данных B:(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12Означать (μ) = 6

Рассчитайте отклонение отдельных значений от среднего (6 рассчитано выше) путем вычитания среднего значения из каждого значения в наборе данных

= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,

Квадрат каждого отдельного значения отклонения

= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25

Рассчитать среднее значение квадрата отклонения

= (25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12

отклонениеσ2= 9,17

Вычислить квадратный корень из дисперсии

Стандартное отклонениеσ= 3,03

Наблюдение:Большая дисперсия и стандартное отклонение в наборе данных B дополнительно демонстрируют, что набор данных B более рассредоточен, чем набор данных A.

Найдена одна интересная инфографика, приведенная ниже, которая прекрасно объясняет концепцию:

Что дальше ?

Мы поняли здесь о описательной статистике, где мы узнали, как эффективно описать / обобщить данный набор данных (совокупность / выборка) на начальном уровне EDA, используя концепцию статистики данных, прежде чем мы начнем строить наши модели данных. Мы поняли тот факт, что надежность данных имеет первостепенное значение, если мы действительно хотим построить эффективные модели машинного обучения. Описательная статистика только помогает нам строить наблюдения на основе предоставленных данных, но если нам действительно нужно делать интеллектуальные прогнозы, мы не можем полагаться только на это. Для этого у нас есть понятие в прикладной статистике под названием,

Усреднение стоимости

Одной из стратегий, которая начала завоевывать популярность в последнее время, является усреднение стоимости (Value Averaging). Придумал ее Майкл Эдельсон в начале 1990-х годов. Направлена она на то, чтобы инвестировать больше, когда цена на акции падает, и меньше, когда эта цена растет. Сравнение стратегий приведено в таблице ниже:

Два примера ниже помогут понять смысл стратегии усреднения стоимости. Первый вариант:

В этом примере у нас есть произвольная акция по начальной цене (NAV) 10 долларов. В течение полугода мы инвестируем в нее двумя методами: DCA и VA. Через полгода цена возвращается к прежнему значению.

В первом случае мы каждый месяц закупаем актив по рыночной цене на сумму 1000$. Units bought = количество купленных единиц (акций) в данном месяце. Первая строка одинакова для обоих методов: на 1000$ покупается 100 акций. Total units = общее число купленных акций.

Различия начинаются дальше — во второй месяц актив немного вырос и его цена составило 10.5$. По методу DCA мы снова использовали для покупки 1000$ и на этот купили меньше, чем 100 акций (а именно 95.24). Для простоты считаем возможным купить дробное число.

А вот по методу VA мы считаем, что наша целевая стоимость должна составлять не менее 2000$, которые составляют два взноса DCA. Как посчитать новый взнос? Рыночная цена у нас 10.5$ плюс 100 купленных в прошлом месяце акций. Общая стоимость равна 10.5 × 100 = 1050 долларов, т.е. нам нужно докупить актив на сумму 2000 – 1050 = 950$. Или 90.48 акции.

В третий месяц с целевой стоимостью 3000$ следует довольно резкий рост цены акции до 13$ и мы видим большую разницу в подходах: по DCA мы по-прежнему закупаемся на 1000$, зато по VA только на 532, т.е. на сумму почти в два раза меньше. Что неудивительно: актив в рамках подхода стал весьма дорогим. Зато когда в четвертый месяц цена сильно падает до 8 долларов, мы наоборот тратим на покупку по VA в два раза больше: а именно 2153$. Итог:

В результате по методу VA мы потратили почти на 400$ меньше, чем по DCA (5604$), получив прибыль в 7% вместо 0.88% по DCA. Почему это произошло? Мы покупали больше акций по низким ценам и меньше по высоким, причем в отличие от спекулянтов нам не пришлось угадывать локальные минимумы и максимумы. Кстати, при очень резком росте цены усреднение стоимости может даже потребовать продажи части акций, чтобы вернуться с целевому уровню — но такое бывает редко.

Теперь обратимся к реальному рынку США и протестируем метод на годовом отрезке с помесячным внесением средств:

Здесь рассмотрены инвестиции в фонд SPY, отслеживающий индекс S&P500. В случае метода DCA инвестируется 250 тысяч долларов, что при ежемесячном вкладе соответствует 20 833$. В случае метода VA целевая стоимость портфеля составляет 20 833, умноженная на номер месяца. Т.е. в феврале она равна 20 833 × 2 = 41 667, в марте 20 833 × 3 = 62 500 и т.д.

В самом конце года рынок сильно упал и годовой результат оказался отрицательным. Тем не менее по методу VA убыток составил 7.18%, тогда как по DCA минус 7.47%. Иначе говоря, VA дал преимущество в 0.3%. Немного, но на дистанции в 10 лет это 3% дохода.

Согласно расчетам Эдельсона, на дистанции 1926-2005 гг. стратегия DCA на рынке США дала бы 11.17% годовых, тогда как VA 12.39%. Разница более процента! При этом на более волатильных рынках развивающихся стран (в том числе на российском рынке) стратегия должна показать как минимум не худший результат.

Недостатки усреднения стоимости

Усреднение стоимости спорный вариант при внесении большой суммы: расчеты показывают, что при наличии значительных средств и долгосрочной стратегии лучшим решением будет войти в рынок сразу. Даже упавшие акции и облигации принесут дивидендный и купонный доход, если вы в рынке. Вернувшись к первому примеру, мы получили 7% прибыли на внесенные средства, но не внесли 400$, которые остались «безработными».

Кроме того, у вас есть шанс упустить более высокую прибыль, если активы продолжат расти после первого инвестиционного периода. Иногда сильный бычий тренд может затянуться на годы, как в случае рынка США в период 1995-2000 годов. И DCA, и VA наиболее подходят либо для бокового рынка, либо для роста с сильными колебаниями. Но усреднение стоимости не сможет превратить плохой год в хороший.

Режим:

Значение, которое встречается чаще в данном наборе данных. Чтобы определить режим, вы можете снова упорядочить результаты, как показано выше, а затем подсчитать каждый. Наиболее часто встречающимся значением является режим.

ЕслиИксявляется дискретной случайной величиной, режим является значениемИкс(То есть,Икс= х) при которой функция вероятности принимает максимальное значение. Другими словами, это значение, которое наиболее вероятно для выборки.

Например, режим образца

Список 1: 1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17

Здесь режим 6.

Дан список данных:

Список 2: 1, 1, 2, 4, 4

Здесь режим не уникален — можно сказать, что набор данныхбимодальныйв то время как набор с более чем двумя режимами может быть описан какмультимодальные,

Обычно режим используется для категориальных данных, где мы хотим знать, какая категория является наиболее распространенной, как показано ниже:

Когда использовать что в описательной статистике для измерения центральной тенденции?

Ниже приводится краткое изложение, чтобы узнать, какова наилучшая мера центральной тенденции по отношению к различным типам переменных.

Тип VariableBest мера центральной тенденции:

Для номинального: режим

Для ординала: медиана

Для интервала / отношения (без перекоса): среднее

Для интервала / отношения (перекошено): Медиана

Случай перекошенного распределения:

Иногда данные обычно не распространяются. Обязательно, чтобы мы проверили наши наборы данных на их нормальное распределение, потому что это — общее предположение, лежащее в основе многих статистических анализов.

Когда у вас есть нормально распределенная выборка, вы можете использовать как среднее значение, так и медиану как показатель центральной тенденции. Фактически, при любом симметричном распределении среднее, медиана и мода равны. Однако в этой ситуации среднее значение широко предпочитается как наилучшая мера центральной тенденции, поскольку именно эта мера включает в себя все значения в наборе данных для его расчета.

На рисунке выше: вы можете заметить, что с правой стороны имеется длинный хвост, и распределение данных не согласовано. Мы можем видеть, чтоозначают (10.1)перетаскивается в направлении перекоса. В этих ситуациях медиана обычно считается лучшим представителем центрального расположения данных.

Помнить:

B: Распространение данных (изменчивость данных)

Мера распространения, иногда также называемая мерой дисперсии, используется для описания изменчивости в выборке или популяции. Обычно он используется в сочетании с мерой центральной тенденции, такой как среднее значение или медиана, для общего описания набора данных.

Меры распространения включают в себя 3 важных классификации:

  1. Диапазон
  2. Квартили и межквартильный ассортимент,
  3. Дисперсия и стандартное отклонение

Давайте быстро покроем все это

Диапазон:

Диапазон — это разница между самым высоким и самым низким баллами в наборе данных и является наиболее простой мерой разброса.

Диапазон = максимальное значение — минимальное значение

Пример: 22,45,56,32,10,9,54

Здесь в приведенном выше наборе данных, Макс = 56, Мин = 9

Так что диапазон = Макс-Мин = 56–9 = 47

Диапазон как мера распространения используется не очень популярно, но он действительно устанавливает границы баллов. Это может быть полезно, если вы измеряете переменную, которая имеет критический низкий или высокий порог или оба, которые не должны пересекаться.

В статистическом анализе диапазон представлен одним числом. В финансовых данных этот диапазон чаще всего относится к максимальному и минимальному значению цены за данный день или другой период времени.

Диапазон Quartiles & Interquartiles:

межквартильный размах(IQR) — это показатель изменчивости, основанный на делении набора данных на квартили.

Давайте сначала поймем, что такое квартили, а затем на некоторых примерах мы углубимся в понимание концепции IQR.

Как использовать функцию КВАРТИЛЬ

Пример 1:

Список =

Давайте сначала найдем медиану:

Median= 54, он разделяет данные наборы данных на равные половины

Так что Q2 = 54 (медиана всей таблицы)

Q1 = 14 (медиана верхней половины, от ряда 1 до 5)

Q3 = 57 (медиана нижней половины, от 5 до 9 ряда)

Для приведенного выше примера:

IQR (межквартильный диапазон) = Q3 — Q1 = 57–14 = 43

+−−−−−+−+                    * |−−−−−−−−−−−|     | |−−−−−−−−−−−|                             +−−−−−+−+     +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+   number line 0   1   2   3   4   5   6   7   8   9   10  11  12
  • нижний (первый) квартильQ1 = 7
  • Медиана (второй квартиль)Q2 = 8,5
  • верхний (третий) квартильQ3 = 9
  • межквартильный размах, IQR =Q3 -Q1 = 2
  • ниже 1,5 * IQR вискер =Q1–1,5 * IQR = 7–3 = 4
  • верхний 1,5 * IQR вискер =Q3 + 1,5 * IQR = 9 + 3 = 12

Межквартильный диапазон часто используется для нахождения выбросов в данных.

Выбросы здесь определяются как наблюдения, которые падают ниже Q1 — 1,5 IQR или выше Q3 + 1,5 IQR. В рассмотренном выше примере коробчатой ​​диаграммы самое высокое и самое низкое значение в пределах этого предела обозначеныбакенбардыкоробки и любые выбросы в виде отдельных точек.

Дисперсия и стандартное отклонение:

Дисперсия является одним из самых популярных способов измерения разброса данных в наборе данных по среднему значению.

Итак, давайте сначала попробуем понять, что означает фактическое отклонение

Медиана и квартили

Ссылки

  1. ^ Современное введение в вероятность и статистику: понимание, почему и как . Деккинг, Мишель, 1946–. Лондон: Спрингер. 2005. стр.  -238. ISBN 978-1-85233-896-1. OCLC   .
  2. Knoch, Джессика (23 февраля 2018). «Как квартили используются в статистике?» . Блог статистики Magoosh . Проверено 11 декабря 2019 года .
  3. Гайндман, Роб Дж; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах» . Американский статистик . 50 (4): 361–365. DOI10.2307 / 2684934 . JSTOR .
  4. Тьюки, Джон Уайлдер (1977). Исследовательский анализ данных . ISBN 978-0-201-07616-5.
  5. «6. Распределение и квантильные функции» . math.bme.hu .
  6. Уолфиш, Стивен (ноябрь 2006 г.). «Обзор метода статистических выбросов» . Фармацевтическая технология .
  7. Доусон, Роберт (1 июля 2011 г.). «Насколько существенны выбросы коробчатой ​​диаграммы?» . Журнал статистики образования . 19 (2): ноль. DOI10.1080 / 10691898.2011.11889610 .
  8. «Как использовать функцию КВАРТИЛЬ Excel | Exceljet» . exceljet.net . Проверено 11 декабря 2019 года .
  9. «Квантили набора данных — квантиль MATLAB» . www.mathworks.com . Проверено 11 декабря 2019 года .
Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: