Стандотклон в excel на английском

Расчет дисперсии, среднеквадратичного (стандартного) отклонения, коэффициента вариации в excel. что такое стандартное отклонение — использование функции стандотклон для расчета стандартного отклонения в excel

Посчитать отклонение в Excel

Одним из основных статистических показателей последовательности чисел является коэффициент вариации. Для его нахождения производятся довольно сложные расчеты. Инструменты Microsoft Excel позволяют значительно облегчить их для пользователя.

Вычисление коэффициента вариации

Этот показатель представляет собой отношение стандартного отклонения к среднему арифметическому. Полученный результат выражается в процентах.

В Экселе не существует отдельно функции для вычисления этого показателя, но имеются формулы для расчета стандартного отклонения и среднего арифметического ряда чисел, а именно они используются для нахождения коэффициента вариации.

Шаг 1: расчет стандартного отклонения

Стандартное отклонение, или, как его называют по-другому, среднеквадратичное отклонение, представляет собой квадратный корень из дисперсии. Для расчета стандартного отклонения используется функция СТАНДОТКЛОН. Начиная с версии Excel 2010 она разделена, в зависимости от того, по генеральной совокупности происходит вычисление или по выборке, на два отдельных варианта: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В.

Синтаксис данных функций выглядит соответствующим образом:

= СТАНДОТКЛОН(Число1;Число2;…) = СТАНДОТКЛОН.Г(Число1;Число2;…) = СТАНДОТКЛОН.В(Число1;Число2;…)

  1. Для того, чтобы рассчитать стандартное отклонение, выделяем любую свободную ячейку на листе, которая удобна вам для того, чтобы выводить в неё результаты расчетов. Щелкаем по кнопке «Вставить функцию». Она имеет внешний вид пиктограммы и расположена слева от строки формул.

Урок: Формула среднего квадратичного отклонения в Excel

Шаг 2: расчет среднего арифметического

Среднее арифметическое является отношением общей суммы всех значений числового ряда к их количеству. Для расчета этого показателя тоже существует отдельная функция — СРЗНАЧ. Вычислим её значение на конкретном примере.

  1. Выделяем на листе ячейку для вывода результата. Жмем на уже знакомую нам кнопку «Вставить функцию».

Урок: Как посчитать среднее значение в Excel

Шаг 3: нахождение коэффициента вариации

Теперь у нас имеются все необходимые данные для того, чтобы непосредственно рассчитать сам коэффициент вариации.

  1. Выделяем ячейку, в которую будет выводиться результат. Прежде всего, нужно учесть, что коэффициент вариации является процентным значением. В связи с этим следует поменять формат ячейки на соответствующий. Это можно сделать после её выделения, находясь во вкладке «Главная». Кликаем по полю формата на ленте в блоке инструментов «Число». Из раскрывшегося списка вариантов выбираем «Процентный». После этих действий формат у элемента будет соответствующий.

Таким образом мы произвели вычисление коэффициента вариации, ссылаясь на ячейки, в которых уже были рассчитаны стандартное отклонение и среднее арифметическое. Но можно поступить и несколько по-иному, не рассчитывая отдельно данные значения.

  1. Выделяем предварительно отформатированную под процентный формат ячейку, в которой будет выведен результат. Прописываем в ней формулу по типу:

Вместо наименования «Диапазон значений» вставляем реальные координаты области, в которой размещен исследуемый числовой ряд. Это можно сделать простым выделением данного диапазона. Вместо оператора СТАНДОТКЛОН.В, если пользователь считает нужным, можно применять функцию СТАНДОТКЛОН.Г.

Существует условное разграничение. Считается, что если показатель коэффициента вариации менее 33%, то совокупность чисел однородная. В обратном случае её принято характеризовать, как неоднородную.

Как видим, программа Эксель позволяет значительно упростить расчет такого сложного статистического вычисления, как поиск коэффициента вариации. К сожалению, в приложении пока не существует функции, которая высчитывала бы этот показатель в одно действие, но при помощи операторов СТАНДОТКЛОН и СРЗНАЧ эта задача очень упрощается. Таким образом, в Excel её может выполнить даже человек, который не имеет высокого уровня знаний связанных со статистическими закономерностями.

Особенности использования СТАНДОТКЛОН.В, СТАНДОТКЛОН.Г, СТАНДОТКЛОНА и СТАНДОТКЛОНПА

Функции СТАНДОТКЛОНА И СТАНДОТКЛОНПА имеют идентичную синтаксическую запись типа:

=ФУНКЦИЯ (значение1; ;…)

  • ФУНКЦИЯ – одна из двух рассмотренных выше функций;
  • значение1 – обязательный аргумент, характеризующий одно из значений выборки (либо генеральной совокупности);
  • – необязательный аргумент, характеризующий второе значение исследуемого диапазона.
  1. В качестве аргументов функций могут быть переданы имена, числовые значения, массивы, ссылки на диапазоны числовых данных, логические значения и ссылки на них.
  2. Обе функции игнорируют пустые значения и текстовые данные, содержащиеся в диапазоне переданных данных.
  3. Функции возвращают код ошибки #ЗНАЧ!, если в качестве аргументов были переданы значения ошибок или текстовые данные, которые не могут быть преобразованы в числовые значения.

Функции СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г имеют следующую синтаксическую запись:

  • ФУНКЦИЯ – любая из функций СТАНДОТКЛОН.В или СТАНДОТКЛОН.Г;
  • число1 – обязательный аргумент, характеризующий числовое значение, взятое из выборки или всей генеральной совокупности;
  • число2 – необязательный аргумент, характеризующий второе числовое значение исследуемого диапазона.

Примечание: обе функции не включают в процесс вычисления числа, представленные в виде текстовых данных, а также логические значения ИСТИНА и ЛОЖЬ.

  1. Стандартное отклонение широко используется в статистических расчетах, когда нахождение среднего значения диапазона величин не дает верное представление о распределении данных. Оно демонстрирует принцип распределения величин относительно среднего значения в конкретной выборке или всей последовательности целиком. В Примере 1 будет наглядно рассмотрено практическое применение данного статистического параметра.
  2. Функции СТАНДОТКЛОНА и СТАНДОТКЛОН.В следует использовать для анализа только части генеральной совокупности и производят расчет по первой формуле, а СТАНДОТКЛОН.Г и СТАНДОТКЛОНПА должны принимать на вход данные о всей генеральной совокупности и производят расчет по второй формуле.
  3. В Excel содержатся встроенные функции СТАНДОТКЛОН и СТАНДОТКЛОНП, оставленные для совместимости с более старыми версиями Microsoft Office. Они могут быть не включены в более поздние версии программы, поэтому их использование не рекомендуется.
  4. Для нахождения стандартного отклонения используются две распространенные формулы: S=√((∑_(i=1)^n▒(x_i-x_ср )^2 )/(n-1)) и S=√((∑_(i=1)^n▒(x_i-x_ср )^2 )/n), где:
  • S – искомое значение стандартного отклонения;
  • n – рассматриваемый диапазон значений (выборка);
  • x_i – отдельно взятое значение из выборки;
  • x_ср – среднее арифметическое значение для рассматриваемого диапазона.

Дисперсия случайной величины

Чтобы вычислить дисперсию случайной величины, необходимо знать ее функцию распределения .

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна математическому ожиданию квадрата отклонения от среднего E(X): Var(Х)=E

Если случайная величина имеет дискретное распределение , то дисперсия вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а μ – среднее значение ( математическое ожидание случайной величины ), р(x) – вероятность, что случайная величина примет значение х.

Если случайная величина имеет непрерывное распределение , то дисперсия вычисляется по формуле:

Для распределений, представленных в MS EXCEL , дисперсию можно вычислить аналитически, как функцию от параметров распределения. Например, для Биномиального распределения дисперсия равна произведению его параметров: n*p*q.

Примечание : Дисперсия, является вторым центральным моментом , обозначается D, VAR(х), V(x). Второй центральный момент — числовая характеристика распределения случайной величины, которая является мерой разброса случайной величины относительно математического ожидания .

Примечание : О распределениях в MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии – стандартное отклонение .

Некоторые свойства дисперсии :

Var(Х+a)=Var(Х), где Х — случайная величина, а — константа.

Var(Х)=E=E=E(X 2 )-E(2*X*E(X))+(E(X)) 2 =E(X 2 )-2*E(X)*E(X)+(E(X)) 2 =E(X 2 )-(E(X)) 2

Это свойство дисперсии используется в статье про линейную регрессию .

Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y — случайные величины, Cov(Х;Y) — ковариация этих случайных величин.

Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе стандартной ошибки среднего .

Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения доверительного интервала для разницы 2х средних .

Таблица нормального распределения

Таблицы нормального распределения встречаются двух типов:

— таблица плотности;

— таблица функции (интеграла от плотности).

Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы. 

В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец , т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен). 

Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.

Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.

На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.

В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.

Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:

Это факт показан на картинке:

Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.

Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:

Для наглядности можно взглянуть на рисунок.

На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.

Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:

Рисунок ниже.

Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.

Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу. Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:

Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:

Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.

Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.

Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.

То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.

Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).

Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).

Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.

Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.

Так выглядит правило 3 сигм для нормального распределения на диаграмме.

С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.

Расчет среднего квадратичного отклонения в Microsoft Excel

Стандартное отклонение в excel определение среднего квадратичного отклонения

​ среднее значение. Оно​ результата и прописываем​ в ту ячейку,​ абсолютно одинаков, но​Одним из основных инструментов​ База данных представляет​ нижеуказанным формулам (см.​ приведем пример.​ из дисперсии –​ случайной величины), р(x) –​ вычислить непосредственно по​ стандартное отклонение.​ указать адрес ячейки,​ из выбранного диапазона,​

​ запуском Мастера функций.​Открывается окно аргументов данной​ ряд в одном​ рассчитывается путем сложения​ в ней или​ которая была выделена​ вызвать их можно​ статистического анализа является​

Расчет в Excel

​ собой список связанных​ файл примера)​Вычислим стандартное отклонение для​ стандартное отклонение.​​ вероятность, что случайная​​ нижеуказанным формулам (см.​Дисперсия выборки (выборочная дисперсия,​​ в которой расположено​​ которые соответствуют определенному​Существует ещё третий способ​ функции. В поля​ столбце, или в​ чисел и деления​ в строке формул​ в самом начале​

Стандартное отклонение в excel способ 1: мастер функций

  1. ​ тремя способами, о​ расчет среднего квадратичного​ данных, в котором​=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))​​ 2-х выборок: (1;​​Некоторые свойства дисперсии:​ величина примет значение​
  2. ​ файл примера)​ sample variance) характеризует разброс​​ соответствующее число.​​ условию. Например, если​​ запустить функцию «СРЗНАЧ».​​ «Число» вводятся аргументы​ одной строке. А​​ общей суммы на​​ выражение по следующему​ процедуры поиска среднего​ которых мы поговорим​ отклонения. Данный показатель​ строки данных являются​=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))​​ 5; 9) и​​ Var(Х+a)=Var(Х), где Х -​
  3. ​ х.​=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)​ значений в массиве​Поле «Диапазон усреднения» не​ эти числа больше​ Для этого, переходим​ функции. Это могут​ вот, с массивом​ их количество. Давайте​ шаблону:​ квадратичного отклонения.​ ниже.​ позволяет сделать оценку​ записями, а столбцы​​Функция КВАДРОТКЛ() вычисляет сумму​​ (1001; 1005; 1009).​
  4. ​ случайная величина, а​Если случайная величина имеет непрерывное​=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) –​ относительно среднего.​ обязательно для заполнения.​ или меньше конкретно​

Стандартное отклонение в excel способ 2: вкладка «Формулы»

​ во вкладку «Формулы».​ быть как обычные​ ячеек, или с​​ выясним, как вычислить​​=СТАНДОТКЛОН.Г(число1(адрес_ячейки1); число2(адрес_ячейки2);…)​

  1. ​Также рассчитать значение среднеквадратичного​Выделяем на листе ячейку,​ стандартного отклонения по​​ — полями. Верхняя​​ квадратов отклонений значений​
  2. ​ В обоих случаях,​​ — константа.​​ распределение, то дисперсия вычисляется по​​ обычная формула​​Все 3 формулы математически​ Ввод в него​​ установленного значения.​​ Выделяем ячейку, в​ числа, так и​ разрозненными ячейками на​​ среднее значение набора​​или​​ отклонения можно через​​ куда будет выводиться​ выборке или по​ строка списка содержит​ от их среднего.​
  3. ​ s=4. Очевидно, что​ Var(aХ)=a2 Var(X)​ формуле:​=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1)​ эквивалентны.​ данных является обязательным​

Стандартное отклонение в excel способ 3: ручной ввод формулы

​Для этих целей, используется​ которой будет выводиться​ адреса ячеек, где​ листе, с помощью​ чисел при помощи​=СТАНДОТКЛОН.В(число1(адрес_ячейки1); число2(адрес_ячейки2);…).​

  1. ​ вкладку​ готовый результат. Кликаем​ генеральной совокупности. Давайте​ названия всех столбцов.​ Эта функция вернет​ отношение величины стандартного​​где р(x) – плотность​

    ​Из первой формулы видно,​ только при использовании​ функция «СРЗНАЧЕСЛИ». Как​

  2. ​ результат. После этого,​ эти числа расположены.​ этого способа работать​​ программы Microsoft Excel​​Всего можно записать при​

​«Формулы»​​ на кнопку​ узнаем, как использовать​

​Поле. Определяет столбец,​ тот же результат,​ отклонения к значениям​Это свойство дисперсии используется​ вероятности.​Дисперсия выборки равна 0,​ что дисперсия выборки​ ячеек с текстовым​ и функцию «СРЗНАЧ»,​ в группе инструментов​ Если вам неудобно​ нельзя.​ различными способами.​ необходимости до 255​.​«Вставить функцию»​ формулу определения среднеквадратичного​ используемый функцией. Название​ что и формула =ДИСП.Г(Выборка)*СЧЁТ(Выборка),​ массива у выборок​ в статье про​

​Для распределений, представленных в​

lumpics.ru>

Как работает стандартное отклонение в Excel

      Добрый день!

     В статье я решил рассмотреть, как работает стандартное отклонение в Excel с помощью функции СТАНДОТКЛОН. Я просто очень давно не описывал и не комментировал статистические функции, а еще просто потому что это очень полезная функция для тех, кто изучает высшую математику.

А оказать помощь студентам – это святое, по себе знаю, как трудно она осваивается.

В реальности функции стандартных отклонений можно использовать для определения стабильности продаваемой продукции, создания цены, корректировки или формирования ассортимента, ну и других не менее полезных анализов ваших продаж.

В Excel используются несколько вариантов этой функции отклонения:

  • Функция СТАНДОТКЛОНА – вычисляется отклонение по выборке текстовых и логических значений. При этом ложные логические и текстовые значения формула приравнивает к 0, а 1 будут равняться только истинные логические значения;
  • Функция СТАНДОТКЛОН.В – производит оценку стандартного отклонения по выборке, при этом текстовые и логические значения игнорирует;
  • Функция СТАНДОТКЛОН.Г – делает оценку отклонения по некой генеральной совокупности и как в предыдущей функции игнорируются текстовые и логические значения;
  • Функция СТАНДОТКЛОНПА – также вычисляет по генеральной совокупности стандартное отклонение, но с учетом текстовых и логических значений. Равняться 1 будут только истинные логические значения, а ложные логические и текстовые значения будут приравнены к 0.

Математическая теория

      Для начала немножко о теории, как математическим языком можно описать функцию стандартного отклонения для применения ее в Excel, для анализа, к примеру, данных статистики продаж, но об этом дальше. Предупреждаю сразу, буду писать очень много непонятных слов… )))), если что ниже по тексту смотрите сразу практическое применение в программе.

     Что же собственно делает стандартное отклонение? Оно производит оценку среднеквадратического отклонения случайной величины Х относительно её математического ожидания на основе несмещённой оценки её дисперсии. Согласитесь, звучит запутанно, но я думаю учащиеся поймут о чём собственно идет речь!

     Теперь можно дать определение и стандартному отклонению – это анализ среднеквадратического отклонения случайной величины Х сравнительно её математической перспективы на основе несмещённой оценки её дисперсии. Формула записывается так:      Отмечу, что все две оценки предоставляются смещёнными. При общих случаях построить несмещённую оценку не является возможным. Но оценка на основе оценки несмещённой дисперсии будет состоятельной.

Практическое воплощение в Excel

     Ну а теперь отойдём от скучной теории и на практике посмотрим, как работает функция СТАНДОТКЛОН. Я не буду рассматривать все вариации функции стандартного отклонения в Excel, достаточно и одной, но в примерах. А для примера рассмотрим, как определяется статистика стабильности продаж.

      Для начала посмотрите на орфографию функции, а она как вы видите, очень проста:

        =СТАНДОТКЛОН.Г(_число1_;_число2_; ….), где:

Число1, число2, … — являют собой генеральную совокупность значений и имеют только числовые значения или же ссылки на них. Формула поддерживает до 255 числовых значений.

      Теперь создадим файл примера и на его основе рассмотрим работу этой функции.

     Так как для проведения аналитических вычислений необходимо использовать не меньше трёх значений, как в принципе в любом статистическом анализе, то и я взял условно 3 периода, это может быть год, квартал, месяц или неделя. В моем случае – месяц.

Для наибольшей достоверности рекомендую брать как можно большое количество периодов, но никак не менее трёх. Все данные в таблице очень простые для наглядности работы и функциональности формулы.

    Для начала нам необходимо посчитать среднее значение по месяцам. Будем использовать для этого функцию СРЗНАЧ и получится формула: =СРЗНАЧ(C4:E4).       Теперь собственно мы и можем найти стандартное отклонение с помощью функции СТАНДОТКЛОН.Г в значении которой нужно проставить продажи товара каждого периода.

Получится формула следующего вида: =СТАНДОТКЛОН.Г(C4;D4;E4).      Ну вот и сделана половина дел. Следующим шагом мы формируем «Вариацию», это получается делением на среднее значение, стандартного отклонения и результат переводим в проценты.

Получаем такую таблицу:        Ну вот основные расчёты окончены, осталось разобраться как идут продажи стабильно или нет. Возьмем как условие что отклонения в 10% это считается стабильно, от 10 до 25% это небольшие отклонения, а вот всё что выше 25% это уже не стабильно.

Для получения результата по условиям воспользуемся логической функцией ЕСЛИ и для получения результата напишем формулу:

                =ЕСЛИ(H4

Коэффициент вариации

Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:

По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.

Подготовка данных

Датасет «Титаник»

Скачаем обучающий датасет Титаник, в сессионное хранилище Google Colab и импортируем в ноутбук.

train.csvСкачать

1
2

# для импорта используем функцию read_csv()

titanic=pd.read_csv(‘/content/train.csv’)

Как мы уже знаем, посмотреть на первые или последние несколько (по умолчанию, пять) значений можно с помощью методов .head() и .tail() соответственно.

1
2

# посмотрим на первые три записи

titanic.head(3)

Иногда для получения более объективного представления о данных удобно использовать метод .sample(), который по умолчанию выдает одно случайное наблюдение.

1
2

# выведем пять случайных строк

titanic.sample(5)

Метод .info() для каждого столбца выводит количество непустных (not-null) значений и тип данных. Кроме того, этот метод считает количество столбцов каждого типа и общий объем памяти, занимаемый датасетом.

1 titanic.info()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
#   Column       Non-Null Count  Dtype  
—  ——       —————  ——  
0   PassengerId  891 non-null    int64  
1   Survived     891 non-null    int64  
2   Pclass       891 non-null    int64  
3   Name         891 non-null    object
4   Sex          891 non-null    object
5   Age          714 non-null    float64
6   SibSp        891 non-null    int64  
7   Parch        891 non-null    int64  
8   Ticket       891 non-null    object
9   Fare         891 non-null    float64
10  Cabin        204 non-null    object
11  Embarked     889 non-null    object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

Конечно, посмотреть количество пропусков удобнее, например, с помощью последовательного применения методов .isnull() и .sum().

1
2
3

# метод .isnull() выдает логический массив, где пропуски обозначены как True
# метод .sum() по умолчанию суммирует эти True или единицы по столбцам (axis = 0)

titanic.isnull().sum()

1
2
3
4
5
6
7
8
9
10
11
12
13

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Теперь выполним несложную предобработку данных.

1
2
3
4
5
6
7
8

# в частности, избавимся от столбца Cabin

titanic.drop(labels=’Cabin’,axis=1,inplace=True)

# заполним пропуски в столбце Age медианным значением

titanic.Age.fillna(titanic.Age.median(),inplace=True)

# два пропущенных значения в столбце Embarked заполним портом Southhampton

titanic.Embarked.fillna(‘S’,inplace=True)

# проверим результат (найдем общее количество пропусков сначала по столбцам, затем по строкам)

titanic.isnull().sum().sum()

1  

Более сложные методы обработки данных мы рассмотрим в третьем и четвертом разделах курса.

Датасет Tips

Кроме того, импортируем хранящийся в библиотеке Seaborn датасет Tips. В нем содержатся 244 записи о чаевых, которые официант ресторана получал на протяжении нескольких месяцев.

1
2
3

# для импорта воспользуемся функцией load_dataset() с параметром ‘tips’

tips=sns.load_dataset(‘tips’)

tips.head(3)

Вновь воспользуемся методом .info().

1
2
3
4
5
6
7
8
9
10
11
12
13
14

<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
#   Column      Non-Null Count  Dtype  
—  ——      —————  ——  
0   total_bill  244 non-null    float64
1   tip         244 non-null    float64
2   sex         244 non-null    category
3   smoker      244 non-null    category
4   day         244 non-null    category
5   time        244 non-null    category
6   size        244 non-null    int64  
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB

Пропущенных значений в этом датасете нет.

1 tips.isnull().sum()

1
2
3
4
5
6
7
8

total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64

Теперь, когда данные подгружены, перейдем к их описанию, нахождению различий и выявлению взаимосвязей.

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: