В большинстве случаев при запуске статистики вы хотите использовать программное обеспечение для статистики. Эти инструменты предназначены для выполнения таких вычислений, как t-тесты, тесты хи-квадрат, корреляции и т.д. Excel не предназначен для анализа данных. Но это не значит, что вы не можете этого сделать.
К сожалению, статистические функции Excel не всегда интуитивно понятны. И они обычно дают эзотерические результаты. Поэтому вместо использования функций статистики мы собираемся использовать надстройку статистики Excel: пакет анализа данных.
Инструментарий, несмотря на то, что он довольно плохо написан, включает в себя широкий спектр полезных статистических функций. Давайте посмотрим, что мы можем сделать со статистикой Excel.
Добавление пакета анализа данных Excel
Хотя вы можете вести статистику без пакета аналитики данных, с ним намного проще. Чтобы установить Toolpak в Excel 2016, выберите «Файл»> «Параметры»> «Надстройки» .
Щелкните Перейти рядом с пунктом «Управление: надстройки Excel».
В появившемся окне установите флажок рядом с Analysis Toolkit и нажмите OK .
Если вы успешно добавили панель инструментов анализа данных в Excel, вы увидите кнопку «Анализ данных» на вкладке «Данные», сгруппированной в разделе «Анализ »:
Если вам нужно еще больше возможностей, обязательно ознакомьтесь с другими надстройками
Описательная статистика в Excel
Независимо от того, какой статистический тест вы запускаете, вам, вероятно, сначала понадобится описательная статистика Excel. Это даст вам информацию о средних, медианах, дисперсии, стандартном отклонении и ошибке, эксцессе, асимметрии и множестве других чисел.
Запустить описательную статистику в Excel просто. Щелкните Анализ данных на вкладке «Данные», выберите «Описательная статистика» и выберите диапазон ввода. Щелкните стрелку рядом с полем диапазона ввода, щелкните и перетащите, чтобы выбрать данные, и нажмите Enter (или щелкните соответствующую стрелку вниз), как показано на GIF-изображении ниже.
Затем обязательно сообщите Excel, есть ли у ваших данных метки, если вы хотите отобразить данные на новом листе или на том же листе, а также если вам нужна сводная статистика и другие параметры.
Затем нажмите ОК, и вы получите описательную статистику:
Студенческий т-тест в Excel
T-тест — один из самых простых статистических тестов, который легко рассчитать в Excel с помощью Toolpak. Нажмите кнопку «Анализировать данные» и прокрутите вниз, пока не увидите параметры t-теста.
У вас есть три варианта:
- t-критерий: если измерения или наблюдения совпадают, следует использовать две пары средних значений. Используйте его, если вы сделали два измерения у одного и того же человека, например, измерение артериального давления до и после операции.
- t-тест: две выборки, предполагающие равные отклонения, следует использовать, когда ваши измерения независимы (что обычно означает, что они были взяты на двух разных группах испытуемых). Мы обсудим часть «равной дисперсии» немного позже.
- t-тест: две выборки с неравными отклонениями также предназначены для независимых измерений, но используются, когда отклонения не равны.
Чтобы проверить, равны ли дисперсии двух ваших выборок, вам необходимо запустить F-тест. Найдите F-тест с двумя выборками для различий в списке инструментов анализа, выберите его и нажмите OK .
Введите два набора данных в поля ввода диапазона. Оставьте значение альфа 0,05, если у вас нет причины его изменить — если вы не знаете, что это значит, оставьте его. Наконец, нажмите ОК .
Excel выдаст вам результаты на новом листе (если вы не выбрали Диапазон вывода и Ячейку на текущем листе):
Вы смотрите здесь на P-значение. Если оно меньше 0,05, у вас неравные отклонения. Следовательно, для выполнения t-теста необходимо использовать параметр неравной дисперсии.
Чтобы запустить t-тест, выберите соответствующий тест в окне «Инструменты анализа» и выберите оба набора данных так же, как вы делали для теста F. Оставьте альфа-значение 0,05 и нажмите «ОК .
Результаты включают все, что необходимо сообщить для t-теста: средние значения, степени свободы (df), статистику и P-значения для одно- и двусторонних тестов. Если значение P меньше 0,05, два образца значительно различаются.
Если вы не уверены, использовать ли односторонний или двусторонний тест, обратитесь к этому объяснению от UCLA .
ANOVA в Excel
Набор инструментов анализа данных Excel предлагает три типа дисперсионного анализа (ANOVA). К сожалению, это не дает вам возможности запускать необходимые дополнительные тесты, такие как Tukey или Bonferroni. Но вы можете увидеть, есть ли связь между разными переменными.
Вот три теста ANOVA в Excel:
- ANOVA: Single Factor анализирует дисперсию с одной зависимой переменной и одной независимой переменной. Если у вас более двух групп, предпочтительно использовать несколько t-критериев.
- ANOVA: двусторонняя репликация, аналогичная парному t-критерию; это включает в себя несколько измерений на отдельных объектах. «Двунаправленная» часть этого теста указывает на наличие двух независимых переменных.
- ANOVA: нет двухсторонней репликации, включающей две независимые переменные, но нет репликации в измерении.
Здесь мы рассмотрим одномерный анализ. В нашем примере мы рассмотрим три набора чисел, обозначенных как «Вмешательство 1», «Вмешательство 2» и «Вмешательство 3». Чтобы выполнить ANOVA, щелкните «Анализ данных», затем выберите «ANOVA: One Factor Factor» .
Выберите диапазон ввода и убедитесь, что Excel сообщает вам, находятся ли ваши группы в столбцах или строках. Я также выбрал здесь метки первых строк, чтобы имена групп отображались в результатах.
После нажатия ОК получаем следующие результаты:
Обратите внимание, что значение P меньше 0,05, так что это важный результат. Это означает, что существует значительная разница как минимум между двумя группами в тесте. Но поскольку Excel не предоставляет тестов для определения различающихся групп, лучшее, что вы можете сделать, — это посмотреть на средние значения, отображаемые в сводке. В нашем примере вмешательство 3 выглядит иначе.
Это не является статистически достоверным. Но если вы просто хотите увидеть, есть ли разница, и посмотреть, какая группа, вероятно, вызывает это, это сработает.
Двусторонний дисперсионный анализ сложнее. Если вы хотите узнать больше о том, когда использовать двухфакторный метод, посмотрите это видео на Sophia.org, а также примеры «нет ответа» и «ответить» на сайте Real Stats.
Корреляция в Excel
Расчет корреляции в Excel намного проще, чем t-тест или ANOVA. Используйте кнопку «Анализ данных», чтобы открыть окно «Инструменты анализа», и выберите «Корреляция» .
Выберите диапазон ввода, определите группы как столбцы или строки и сообщите Excel, есть ли у вас какие-либо метки. Затем нажмите ОК .
Вы не получите никаких индикаторов значения, но вы сможете увидеть, как каждая группа сравнивается с другими. Значение, равное единице, является абсолютной корреляцией, которая указывает на то, что значения точно такие же. Чем ближе значение корреляции к единице, тем сильнее корреляция.
Регрессия в Excel
Регрессия — один из наиболее часто используемых статистических тестов в отрасли, и Excel предлагает удивительные возможности для этого расчета. Здесь мы сделаем быструю множественную регрессию в Excel. Если вы не знакомы с регрессией, ознакомьтесь с руководством HBR по использованию регрессии в бизнесе .
Допустим, наша зависимая переменная — артериальное давление, а две независимые переменные — вес и потребление соли. Мы хотим узнать, какой показатель артериального давления лучше всего (или оба ли хороши).
Щелкните Анализ данных и выберите Регрессия. На этот раз будьте осторожны при заполнении полей ввода. Диапазон ввода Y должен содержать вашу единственную зависимую переменную. Поле Input X Range может включать несколько независимых переменных. Для простой регрессии не беспокойтесь об остальном (хотя обязательно сообщите Excel, если вы выбрали метки).
Вот как выглядит наш расчет:
После нажатия ОК вы получите большой список результатов. Я выделил здесь значение P для веса и потребления соли:
Как видите, значение P для веса больше 0,05, поэтому здесь нет значимой связи. Однако значение P для соли меньше 0,05, что указывает на то, что это хороший показатель артериального давления.
Если вы планируете представить данные регрессии, помните, что вы можете добавить линию регрессии на диаграмму рассеяния в Excel. Это отличное наглядное пособие для анализа.