Регрессионный анализ — определение и вычисление с примерами решения

21  дисперсионный анализ (anova)

1. Роль степеней свободы (degree of freedom) в статистике

Имея выборочную совокупность, мы можем лишь оценивать числовые характеристики совокупности, параметры выбранной модели. Так не имеет смысла говорить о среднеквадратическом отклонении при наличии лишь одного наблюдения.  Представим линейную регрессионную модель в виде:  

Сколько нужно наблюдений, чтобы построить линейную регрессионную модель? В случае двух наблюдений можем получить идеальную модель (рис.1), однако есть в этом недостаток. Причина в том, что сумма квадратов ошибки (MSE) равна нулю и не можем оценить оценить неопределенность коэффициентов . Например не можем построить доверительный интервал для коэффициента наклона по формуле:  

А значит не можем сказать ничего о целесообразности использования коэффициента в данной регрессионной модели. Необходимо по крайней мере 3 точки. А что же, если все три точки могут поместиться на одну линию? Такое может быть. Но при большом количестве наблюдений маловероятна идеальная линейная зависимость между зависимой и независимыми переменными (рис. 1).

Рисунок 1 — простая линейная регрессия

 Количество степеней свободы — количество значений, используемых при расчете статистической характеристики, которые могут свободно изменяться. С помощью количества степеней свободы оцениваются коэффициенты модели и стандартные ошибки. Так, если имеется n наблюдений и нужно вычислить дисперсию выборки, то имеем n-1 степеней свободы.

Мы не знаем среднее генеральной совокупности, поэтому оцениваем его средним значением по выборке. Это стоит нам одну степень свободы.

Пусть известны сумма квадратов отклонений , среднее значение . Возьмем несколько реализаций значений . Тогда для выполнения равенства

значение должно быть фиксированное.

Пример представлен на рисунке 2.

Рисунок 2 — пояснение к степеням свободы

Представим теперь что имеется 4 выборочных совокупностей (рис.3).

Рисунок 3

Каждая выборочная совокупность имеет свое среднее значение, определяемое по формуле . И каждое выборочное среднее может быть оценено . Для оценки мы используем 2 параметра , а значит теряем 2 степени свободы (нужно знать 2 точки).  То есть количество степеней свобод  Заметим, что при 2 наблюдениях получаем 0 степеней свободы, а значит не можем оценить коэффициенты модели и стандартные ошибки.  

Таким образом сумма квадратов ошибок имеет (SSE, SSE — standard error of estimate) вид:  

Стоит упомянуть, что в знаменателе стоит n-2, а не n-1 в связи с тем, что среднее значение оценивается по формуле . Квадратные корень формулы (4) — ошибка стандартного отклонения.

В общем случае количество степеней свободы для линейной регрессии рассчитывается по формуле:

где n — число наблюдений, k — число независимых переменных.

Проверка значимости коэффициентов

Коэффициент линейной регрессии считается значимым, если его МНК-оценка
отлична от нуля.

Опишем критерий Фишера проверки значимости коэффициентов линейной регрессии.

Нулевая гипотеза .

Нулевая гипотеза утверждает, что отклик не зависит от предикторных переменных .

Статистика критерия:

имеет имеет распределение Фишера с и степенями свободы. Тогда критической областью критерия является правый хвост распределения Фишера,
что соотвествует альтернативной гипотезе .

Критерий (при уровне значимости ) против альтернативы :

если , то нулевая гипотеза отвергается в пользу альтернативы ;

если , то принимаем нулевую гипотезу ;

где есть -квантиль распределения Фишера с и степенями свободы.

RMSE

Корень из среднеквадратичной ошибки (Root Mean Squared Error) вычисляется просто как квадратный корень из MSE:

RMSE=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}(y_{i}-\widehat{y_{i}})^{2}}

MSE и RMSE могут минимизироваться с помощью одного и того же функционала, поскольку квадратный корень является неубывающей функцией. Например, если у нас есть два набора результатов работы модели, A и B, и MSE для A больше, чем MSE для B, то мы можем быть уверены, что RMSE для A больше RMSE для B. Справедливо и обратное: если MSE(A)<MSE(B), то и RMSE(A)<RMSE(B).

Следовательно, сравнение моделей с помощью RMSE даст такой же результат, что и для MSE. Однако с MSE работать несколько проще, поэтому она более популярна у аналитиков. Кроме этого, имеется небольшая разница между этими двумя ошибками при оптимизации с использованием градиента:

\frac{\partial RMSE}{\partial \widehat{y}_{i}}=\frac{1}{2\sqrt{MSE}}\frac{\partial MSE}{\partial \widehat{y}_{i}}

Это означает, что перемещение по градиенту MSE эквивалентно перемещению по градиенту RMSE, но с другой скоростью, и скорость зависит от самой оценки MSE. Таким образом, хотя RMSE и MSE близки с точки зрения оценки моделей, они не являются взаимозаменяемыми при использовании градиента для оптимизации.

Влияние каждой ошибки на RMSE пропорционально величине квадрата ошибки. Поэтому большие ошибки оказывают непропорционально большое влияние на RMSE. Следовательно, RMSE можно считать чувствительной к аномальным значениям.

Постановка задачи

Зададим признаковое описание объекта с использованием следующих обозначений. Каждая независимая переменная представлена вектором-столбцом x_j=(x_{j1},…,x_{jm}), а зависимая y_i=(y_{i1},…,y_{im}). Тогда

y=b_1x_1+…+b_nx_n

или в матричном представлении

y=Xb,

где X — матрица признаков со столбцами x_1,…,x_n, b=(b_1,…,b_n) — вектор параметров модели.

Пусть задана выборка D=\{x_i,y_i\},i=1..m, состоящая из m пар, включающих векторы значений зависимых переменных x_i=(x_{ij}),j=1..n и значений единственной независимой переменной y_i. Индексы наблюдений i и индекс независимых переменных j, будем рассматривать как элементы множеств i∈I=\{1,…,m\}, j∈J=\{1,…,n\}.

Также пусть задано разбиение на обучающее и тестовое множества L и T, I=L∪T.

Зададим модель линейной регрессии в виде:

y_i=f_s(b_sx_i)=\sum\limits_{j=1}^{n}b_{j}x_{ij},

где s=\{1,…,2^{n}\} — индекс модели, b_s=(b_j) — вектор параметров модели.

Алгоритм выбора модели задаёт метод оптимизации, доставляющий оптимальное значение параметрам \widehat{b} модели на обучающей выборке. Минимизируемый функционал качества модели определим как сумму квадратов остатков регрессии:

S=\sum\limits_{i=1}^{n}(y_i−f(b_sx_i))^{2}. (1)

Требуется найти такую модель, которая обеспечит минимум данному функционалу качества. В литературе величину S часто обозначают RSS — Residual Sum of Squares (сумма квадратов остатков).

Принудительное (полное) включение — включение в аналитическую модель всех доступных в обучающем наборе признаков. Этот подход целесообразно использовать в следующих случаях:

  1. Количество признаков относительно невелико и их полное включение не приводит к излишней сложности модели как в плане интерпретируемости, так и в плане вычислительной сложности.
  2. Исключение любого признака приводит к критичному уменьшению количества информации, используемой для обучения модели. Иными словами, когда незначимые и избыточные признаки просто отсутствуют.

Прямое включение (Forward selection) — метод, который базируется на принципе: начать с пустой модели, в которой признаки отсутствуют и постепенно добавляя признаки найти самые «лучшие».

Обратное исключение (Backward elimination) — исходная модель содержит все признаки, которые поочерёдно исключаются с целью найти «худшие» и не применять их в модели.

Пошаговое включение/исключение (Stepwise) — модификация метода прямого включения с тем отличием, что на каждом шаге после включения новой переменной в модель, осуществляется проверка на значимость остальных переменных, которые уже были введены в нее ранее (М.А. Эфраимсон, 1960).

Гребневая регрессия (Ridge regression) — использует процедуру регуляризации для ограничения пространства решений с целью сделать модель более устойчивой в случае высокой коррелированности входных признаков. Подразумевает введение штрафов для уменьшения значений коэффициентов регрессии. При этом значения параметров модели не обращаются в ноль, т.е. отбора переменных не происходит.

LASSO-регрессия — также использует регуляризацию для повышения устойчивости модели. Но отличается от гребневой регрессии тем, что допускает обнуление параметров модели (т.е. реализует процедуру отбора).

Регрессия «Эластичная сеть» — также использует регуляризацию, но в отличии от гребневой регрессии в ней применяет два регуляризующих члена.

21.1 Тестирование значимости нулевой гипотезы в ANOVA.

Как и в случае с другими статистическими тестами, мы можем выделить 4 этапа в тестировании значимости нулевой гипотезы в ANOVA:

  1. Формулирование нулевой и альтернативной гипотезы. Нулевая гипотеза говорит, что между средними в генеральной совокупности нет различий:

\ Можно было бы предположить, что ненулевая гипотеза звучит как “все средние не равны”, но вообще-то это не так. Альтернативная гипотеза в дисперсионном анализе звучит так:

\

  1. Подсчет статистики. Как мы уже видели раньше, в дисперсионном анализе используется новая для нас статистика F. Впрочем, мы ее видели, когда смотрели на аутпут функции , когда делали линейную регрессию. Чтобы считать F (если вдруг мы хотим сделать это вручную), нужно построить талбицу ANOVA (ANOVA table).
Таблица ANOVA Степени свободы Суммы квадратов Средние квадраты F-статистика
Межгрупповые \(df_{b}\) \(SS_{b}\) \(MS_{b} =\frac{SS_{b}}{df_{b}}\) \(F=\frac{MS_{b}}{MS_{w}}\)
Внутригрупповые \(df_{w}\) \(SS_{w}\) \(MS_{w} =\frac{SS_{w}}{df_{w}}\)
Общие \(df_{t}\) \(SS_{t}= SS_{b} + SS_{w}\)

Именно эту таблицу мы видели, когда использовали функцию :

Вот как это все считается:

Таблица ANOVA Степени свободы Суммы квадратов Средние квадраты F-статистика
Между \(df_{b}=J-1\) \(SS_{b}= \sum\limits_{j=1}^J \sum\limits_{i=1}^{n_j} (\overline{x_j}-\overline{x})^2\) \(MS_{b} =\frac{SS_{b}}{df_{b}}\) \(F=\frac{MS_{b}}{MS_{w}}\)
Внутри \(df_{w}=N-J\) \(SS_{w}= \sum\limits_{j=1}^J \sum\limits_{i=1}^{n_j} (x_{ij}-\overline{x_j})^2\) \(MS_{w} =\frac{SS_{w}}{df_{w}}\)
Общие \(df_{t}=N-1\) \(SS_{t}= \sum\limits_{j=1}^J \sum\limits_{i=1}^{n_j} (x_{ij}-\overline{x})^2\)

\(J\) означает количество групп, \(N\) — общее количество наблюдений во всех группах, \(n_j\) означает количество наблюдений в группе j, а \(x_{ij}\) — наблюдение под номером \(i\) в группе \(j\).

Вариабельность обозначается \(SS\) и означает “сумму квадратов” (sum of squares) — это то же, что и дисперсия, только мы не делим вме в конце на количество наблюдений (или количество наблюдений минус один): \

Здесь много формул, но суть довольно простая: мы разделяем вариабельность зависимой переменной на внутригрупповую и межгрупповую, считаем их соотношение, которое и будет F. В среднем, F будет равен 1 при верности нулевой гипотезы. Это означает, что и межгрупповая вариабельность, и внутригрупповая вариабельность — это просто шум. Но если же межгрупповая вариабельность — это не просто шум, то это соотношение будет сильно больше единицы.

  1. Подсчет p-value. В t-тесте мы смотрели, как статистика распределена при условии верности нулевой гипотезы. То есть что будет, если нулевая гипотеза верна, мы будем повторять эксперимент с точно таким же дизайном (и размером выборок) бесконечное количество раз и считать F.

Заметьте, распределение F несимметричное. Это значит, что мы всегда считаем считаем площадь от F до плюс бесконечности (без умножения на 2, как мы это делали в t-тесте):

Это и есть наш p-value!

  1. Сравнение p-value с уровнем \(\alpha\). Самый простой этап: если наш p-value меньше, чем \(\alpha\) (который обычно равен 0.05), то мы отвергаем нулевую гипотезу. Если нет — не отвергаем.

Решение

1. Критерий Хи-квадрат

1.1. Реализация в MathCad

1.2. Реализация в Excel

Формулы ячеек на листе Excel представлены в табл. 2.

Таблица 2

Формулы ячеек

Ячейка Характеристика Формула
В15 – число случаев исхода =СЧЁТЕСЛИ($B$3:$H$7;A15)
С15 – вероятность наступления =ПУАССОН.РАСП(A15;$E$11;ЛОЖЬ)
D15 – ожидаемое число случаев исхода =ОКРУГЛ(C15*$H$9;0)
H19 – статистика Хи-квадрат =СУММ(H15:H18)
H23 – критическое значение Хи-квадрата (максимальное значение для заданного уровня значимости) =ХИ2.ОБР(1-H22;H21)
J19 – p-value (вероятность получить расчетное значение Хи-квадрата) =ХИ2.РАСП.ПХ(H19;H21)
J20 – Хи-квадрат тест =ХИ2.ТЕСТ(F15:F18;G15:G18)

Литература

  1. Емельянов А.А., Власова Е.А., Дума Р.В. Имитационное моделирование экономических процессов: уч. пособ. — М.: Финансы и статистика, 2002. — 368с.
  2. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. — М.: ФИЗМАТЛИТ, 2006. — 816 с. 

В.Н. Кравченко
Последнее обновление: 2018.11.03

Пошаговый отбор

  1. Осуществляем прямой ход процедуры пошагового отбора, т.е. первый шаг прямого отбора. Как показано выше, его результатом является включение в модель переменной x_2. Поскольку на данном шаге регрессионная модель не содержит других переменных, обратный ход процедуры пошагового отбора не выполняется.
  2. Рассматриваем следующую переменную-кандидата на включение в модель. Это будет переменная x_1, значимость которой была показана при рассмотрении метода прямого включения. После включения в модель новой переменной, переменная включенная ранее может потерять свою значимость и её использование в модели теряет смысл. Выяснить, потеряла ли переменная x_2 значимость «на фоне» x_1 и предстоит на фазе обратного хода алгоритма отбора.
  3. Для проверки целесообразности оставления переменной x_2 на обратном ходе, нужно оценить значимость увеличения суммы квадратов остатков регрессии при её исключении. Для этого определим соответствующее значение F-критерия.
Переменная S
x_{2}\setminus x_{1} 2.07
x_1 8.68

F=\frac{8.68-2.07}{8.68}\cdot \frac{10-2}{2-1}=6.1

Данное значение превышает соответствующее критическое значение F-распределения F_{кр}=5.32, поэтому можно считать что исключение переменной x_2 на обратном ходе алгоритма значимо ухудшает точность модели и, следовательно, нецелесообразно.

Поскольку переменная x_3 в прямом включении не смогла показать значимость, достаточную для включения в модель, то использовать её в процедуре пошагового отбора также не целесообразно и поэтому она завершает свою работу.

Пример: F-тест в регрессии

Предположим, у нас есть следующий набор данных, который показывает общее количество часов обучения, общее количество сданных подготовительных экзаменов и итоговый балл за экзамен, полученный для 12 разных студентов:

Чтобы проанализировать взаимосвязь между учебными часами и сданными подготовительными экзаменами и окончательным экзаменационным баллом, который получает студент, мы запускаем множественную линейную регрессию, используя отработанные часы и подготовительные экзамены, взятые в качестве переменных-предикторов, и итоговый экзаменационный балл в качестве переменной ответа.

Мы получаем следующий вывод:

Исходя из этих результатов, мы сосредоточимся на F-статистике, приведенной в таблице ANOVA, а также на p-значении этой F-статистики, которое в таблице обозначено как « Значимость F ». Мы выберем 0,05 в качестве нашего уровня значимости.

F-статистика: 5,090515

Р-значение: 0,0332

Поскольку p-значение меньше уровня значимости, мы можем сделать вывод, что наша регрессионная модель лучше соответствует данным, чем модель, основанная только на перехвате.

В контексте этой конкретной проблемы это означает, что использование в модели наших переменных-предикторов « Часы обучения» и « Подготовительные экзамены » позволяет нам лучше подогнать данные, чем если бы мы их исключили и просто использовали модель только для перехвата.

Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример

Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить
не только возможную
зависимость результативного признака от двух факторов — A и B, но и возможное
взаимодействие факторов A и B. Тогда
a — число градаций фактора A и b — число градаций фактора B, r —
число повторений. В
статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:

,

где

— общая сумма квадратов отклонений,

— объяснённая
влиянием фактора сумма квадратов отклонений,

— объяснённая
влиянием фактора сумма квадратов отклонений,

— объяснённая
влиянием взаимодействия факторов и сумма квадратов отклонений,

— необъяснённая сумма
квадратов отклонений или сумма квадратов отклонений ошибки,


общее среднее наблюдений,


среднее наблюдений в каждой градации фактора ,


среднее число наблюдений в каждой градации фактора ,


среднее число наблюдений в каждой комбинации градаций факторов
и ,

— общее число наблюдений.

Дисперсии вычисляются следующим образом:


дисперсия, объяснённая влиянием фактора ,


дисперсия, объяснённая влиянием фактора ,


дисперсия, объяснённая взаимодействием факторов и ,


необъяснённая дисперсия или дисперсия ошибки,

где


число степеней свободы дисперсии, объяснённой влиянием фактора ,


число степеней свободы дисперсии, объяснённой влиянием фактора ,


число степеней свободы дисперсии, объяснённой взаимодействием факторов и ,


число степеней свободы необъяснённой дисперсии или дисперсии ошибки,


общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов
выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора :

,

: не все равны;

для фактора :

,

: не все равны;

для взаимодействия факторов и :

,

: ABij ≠ 0
для всех i и j.

Чтобы определить влияние фактора , нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .

Чтобы определить влияние фактора , нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .

Чтобы определить влияние взаимодействия факторов и
, нужно
фактическое отношение Фишера
сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует
отклонить нулевую гипотезу с уровнем значимости . Это означает,
что фактор существенно влияет на данные: данные зависят от фактора с вероятностью
.

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует
принять нулевую гипотезу с уровнем значимости . Это означает,
что фактор не оказывает существенного влияния на данные с вероятностью
.

Двухфакторный дисперсионный анализ с повторениями: пример

Пример 4. Торговое предприятие имеет три магазина —
, и .
Проводятся две рекламные кампании. Требуется выяснить, зависят ли средние дневные доходы магазинов от
двух рекламных кампаний. Для процедуры проверки случайно выбраны по 3 дня каждой рекламной кампании
(то есть число повторений ). Результаты обобщены
в таблице:

Рекламная кампания Магазин
Рекламная кампания 1 12,05
23,94
14,63
Рекламная кампания 2 25,78
17,52
18,45
Среднее 18,73
Магазин Магазин Среднее
15,17 9,48 14,53
18,52 6,92
19,57 10,47
21,40 7,63 15,86
13,59 11,90
20,57 5,92
18,14 8,72

Факторы, подлежащие проверке: магазин (, и )
и рекламная кампания (1 и 2). Пусть эти факторы не зависят друг от друга.

Вычислим суммы квадратов отклонений:

,

,

,

.

Числа степеней свободы:

,

,

,

,

.

Дисперсии:

,

,

,

.

Фактические отношения Фишера:

для фактора :

для фактора :

для взаимодействия факторов и :
.

Критические значения отношения Фишера:

для фактора : ,

для фактора :

для взаимодействия факторов и :
.

Делаем выводы:

о влиянии фактора : фактическое отношение Фишера
меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%,

о влиянии фактора : фактическое отношение Фишера
больше критического, следовательно, доходы существенно различаются между магазинами,

о взаимодействии факторов и :
фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного
магазина не существенно.

Гетероскедастичность

Термин гетероскедастичность применяется в ситуации, когда ошибки в различных наблюдениях некоррелированы, но их дисперсии — разные. Соответственно термин гомоскедастичность применяется в случае постоянных дисперсий.

Визуальный анализ

Одним из основных методов предварительного исследования на гетероскедастичность является визуальный анализ графика остатков. Целью данного анализа является нахождение факторов влияющих на изменение дисперсии, номер измерения или значение одного из признаков. Для сравнения приведем несколько примеров.

Выше представлена госмоскедастичная модель. Действительно, используя визуальный анализ, не получается найти какие-то признаки непостоянства дисперсии и тем более какие-то зависимости.

В данном случае визуально можно констатировать факт непостоянства дисперсии и даже связать это изменение с номером эксперимента (или возможно с одним из признаков, если он монотонно изменялся по номеру эксперимента).

Еще один пример визуально определимой гетероскедастичности.

Статистические методы детекции

Опишем суть нескольких общеупотребительных статистических тестов на гетероскедастичность.
Во всех этих тестах основной гипотезой является равенство против альтернативной гипотезы : не .

Тест Уайта

Содержательный смысл теста в том, что часто гетероскедастичность модели вызвана зависимостью (возможно довольно сложной) дисперсий ошибок от признаков. Реализуя эту идею, Уайт предложил метод тестирования гипотезы без каких-либо предположений о структуре гетероскедастичности. Сначала к исходной модели применяется обычный метод наименьших квадратов и находятся остатки регрессии . Затем осуществляется регрессия квадратов этих остатков на все признаки, их квадраты, попарные произведения и константу.
Тогда при гипотезе величина асимптотически имеет распределение , где  — коэффициент детерминации, а  — число регрессоров второй регрессии.
Плюс данного теста — его универсальность. Минусы : 1) если гипотеза отвергается, то никаких указаний на функциональную форму гетероскедастичности мы не получаем; 2) несомненным минусом является поиск вслепую вида регрессии(начинаем приближать простыми полиномами второй степени без какой бы то ни было причины на это)

Тест Голдфелда-Кванта

Этот тест применяется, когда есть предположение о прямой зависимости дисперсии ошибок от некоторого признака. Алгоритм метода:

  1. упорядочить данные по убыванию того признака, относительно которого сделано предположение;
  2. Делим наблюдения на три части, причём они должны быть равны или примерно равны, а также первая и третья должны быть одинаковы.
  3. Провести две независимые регрессии для первой части и для последней. Рассчитать выровненные значения и построить соответствующие остатки (): и ;
  4. Cоставить cтатистику Фишера . Если кр, следовательно есть гетероскедостичность.

Тест Ансари-Брэдли

Тест получает на вход две выборки размеров и и проверяет на равенство дисперсий распределения, из которых они могли быть получены. Алгоритм метода пошагово:

  • Расположим по возрастанию;
  • Расставим метки таким образом :

Эвристика

Суть данной эвристики состоит в ранжировании псевдодисперсий и в анализе полученной гистограммы. Под псевдодисперсией будем понимать величины
, где . Простейший анализ гистограммы, состоящей из 10 интервалов, будем проводить сравнением количества элементов на первых двух интервалах. Это отношение будем сравнивать с некоторой, заранее заданной константой, на основе чего и будем принимать решение о гетероскедастичности. Вот пример гистограммы для гомоскедастичного случая (график его остатков был представлен ранее):

Легко заметить, что порядок отношения первых двух столбцов — около пяти-шести к одному, что же касается гетероскедастичного случая, это отношение будет больше семи (было замечено вплоть до 34) примеры можно посмотреть ниже, в вычислительном эксперименте.

Заключение

Показан смысл числа степеней свободы в статистическом анализе. Выведена формула F-теста в простом случае(9). Представлены шаги выбора лучшей модели. Выведена формула F-критерия Фишера и его запись через коэффициенты детерминации.

Можно посчитать F-статистику самому, а можно передать две обученные модели функции aov, реализующей ANOVA в RStudio. Для автоматического отбора лучшего набора предикторов удобна функция step.

Надеюсь вам было интересно, спасибо за внимание. При выводе формул очень помогли некоторые главы из курса по статистике STAT 501

При выводе формул очень помогли некоторые главы из курса по статистике STAT 501

Теги: 

  • F-тест

  • Отбор моделей

  • Линейная регрессия

Хабы: 

  • Математика

  • Статистика

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: