Как сделать базовый анализ данных в Excel

Автор: | 27.12.2021

Как провести базовый анализ данных в Excel

В большинстве случаев при запуске статистики вы хотите использовать программное обеспечение для статистики. Эти инструменты предназначены для выполнения таких вычислений, как t-тесты, тесты хи-квадрат, корреляции и т.д. Excel не предназначен для анализа данных. Но это не значит, что вы не можете этого сделать.

К сожалению, статистические функции Excel не всегда интуитивно понятны. И они обычно дают эзотерические результаты. Поэтому вместо использования функций статистики мы собираемся использовать надстройку статистики Excel: пакет анализа данных.

Инструментарий, несмотря на то, что он довольно плохо написан, включает в себя широкий спектр полезных статистических функций. Давайте посмотрим, что мы можем сделать со статистикой Excel.

Добавление пакета анализа данных Excel

Хотя вы можете вести статистику без пакета аналитики данных, с ним намного проще. Чтобы установить Toolpak в Excel 2016, выберите «Файл»> «Параметры»> «Надстройки» .

Щелкните Перейти рядом с пунктом «Управление: надстройки Excel».

базовый анализ данных в Excel

В появившемся окне установите флажок рядом с Analysis Toolkit и нажмите OK .

базовый анализ данных в Excel

Если вы успешно добавили панель инструментов анализа данных в Excel, вы увидите кнопку «Анализ данных» на вкладке «Данные», сгруппированной в разделе «Анализ »:

базовый анализ данных в Excel

Если вам нужно еще больше возможностей, обязательно ознакомьтесь с другими надстройками

Описательная статистика в Excel

Независимо от того, какой статистический тест вы запускаете, вам, вероятно, сначала понадобится описательная статистика Excel. Это даст вам информацию о средних, медианах, дисперсии, стандартном отклонении и ошибке, эксцессе, асимметрии и множестве других чисел.

Запустить описательную статистику в Excel просто. Щелкните Анализ данных на вкладке «Данные», выберите «Описательная статистика» и выберите диапазон ввода. Щелкните стрелку рядом с полем диапазона ввода, щелкните и перетащите, чтобы выбрать данные, и нажмите Enter (или щелкните соответствующую стрелку вниз), как показано на GIF-изображении ниже.

 

Затем обязательно сообщите Excel, есть ли у ваших данных метки, если вы хотите отобразить данные на новом листе или на том же листе, а также если вам нужна сводная статистика и другие параметры.

базовый анализ данных в Excel

Затем нажмите ОК, и вы получите описательную статистику:

базовый анализ данных в Excel

Студенческий т-тест в Excel

T-тест — один из самых простых статистических тестов, который легко рассчитать в Excel с помощью Toolpak. Нажмите кнопку «Анализировать данные» и прокрутите вниз, пока не увидите параметры t-теста.

базовый анализ данных в Excel

У вас есть три варианта:

  • t-критерий: если измерения или наблюдения совпадают, следует использовать две пары средних значений. Используйте его, если вы сделали два измерения у одного и того же человека, например, измерение артериального давления до и после операции.
  • t-тест: две выборки, предполагающие равные отклонения, следует использовать, когда ваши измерения независимы (что обычно означает, что они были взяты на двух разных группах испытуемых). Мы обсудим часть «равной дисперсии» немного позже.
  • t-тест: две выборки с неравными отклонениями также предназначены для независимых измерений, но используются, когда отклонения не равны.

Чтобы проверить, равны ли дисперсии двух ваших выборок, вам необходимо запустить F-тест. Найдите F-тест с двумя выборками для различий в списке инструментов анализа, выберите его и нажмите OK .

базовый анализ данных в Excel

Введите два набора данных в поля ввода диапазона. Оставьте значение альфа 0,05, если у вас нет причины его изменить — если вы не знаете, что это значит, оставьте его. Наконец, нажмите ОК .

Excel выдаст вам результаты на новом листе (если вы не выбрали Диапазон вывода и Ячейку на текущем листе):

базовый анализ данных в Excel

Вы смотрите здесь на P-значение. Если оно меньше 0,05, у вас неравные отклонения. Следовательно, для выполнения t-теста необходимо использовать параметр неравной дисперсии.

Чтобы запустить t-тест, выберите соответствующий тест в окне «Инструменты анализа» и выберите оба набора данных так же, как вы делали для теста F. Оставьте альфа-значение 0,05 и нажмите «ОК .

базовый анализ данных в Excel

Результаты включают все, что необходимо сообщить для t-теста: средние значения, степени свободы (df), статистику и P-значения для одно- и двусторонних тестов. Если значение P меньше 0,05, два образца значительно различаются.

Если вы не уверены, использовать ли односторонний или двусторонний тест, обратитесь к этому объяснению от UCLA .

ANOVA в Excel

Набор инструментов анализа данных Excel предлагает три типа дисперсионного анализа (ANOVA). К сожалению, это не дает вам возможности запускать необходимые дополнительные тесты, такие как Tukey или Bonferroni. Но вы можете увидеть, есть ли связь между разными переменными.

Вот три теста ANOVA в Excel:

  • ANOVA: Single Factor анализирует дисперсию с одной зависимой переменной и одной независимой переменной. Если у вас более двух групп, предпочтительно использовать несколько t-критериев.
  • ANOVA: двусторонняя репликация, аналогичная парному t-критерию; это включает в себя несколько измерений на отдельных объектах. «Двунаправленная» часть этого теста указывает на наличие двух независимых переменных.
  • ANOVA: нет двухсторонней репликации, включающей две независимые переменные, но нет репликации в измерении.

Здесь мы рассмотрим одномерный анализ. В нашем примере мы рассмотрим три набора чисел, обозначенных как «Вмешательство 1», «Вмешательство 2» и «Вмешательство 3». Чтобы выполнить ANOVA, щелкните «Анализ данных», затем выберите «ANOVA: One Factor Factor» .

базовый анализ данных в Excel

Выберите диапазон ввода и убедитесь, что Excel сообщает вам, находятся ли ваши группы в столбцах или строках. Я также выбрал здесь метки первых строк, чтобы имена групп отображались в результатах.

После нажатия ОК получаем следующие результаты:

базовый анализ данных в Excel

Обратите внимание, что значение P меньше 0,05, так что это важный результат. Это означает, что существует значительная разница как минимум между двумя группами в тесте. Но поскольку Excel не предоставляет тестов для определения различающихся групп, лучшее, что вы можете сделать, — это посмотреть на средние значения, отображаемые в сводке. В нашем примере вмешательство 3 выглядит иначе.

Это не является статистически достоверным. Но если вы просто хотите увидеть, есть ли разница, и посмотреть, какая группа, вероятно, вызывает это, это сработает.

Двусторонний дисперсионный анализ сложнее. Если вы хотите узнать больше о том, когда использовать двухфакторный метод, посмотрите это видео на Sophia.org, а также примеры «нет ответа» и «ответить» на сайте Real Stats.

Корреляция в Excel

Расчет корреляции в Excel намного проще, чем t-тест или ANOVA. Используйте кнопку «Анализ данных», чтобы открыть окно «Инструменты анализа», и выберите «Корреляция» .

базовый анализ данных в Excel

Выберите диапазон ввода, определите группы как столбцы или строки и сообщите Excel, есть ли у вас какие-либо метки. Затем нажмите ОК .

базовый анализ данных в Excel

Вы не получите никаких индикаторов значения, но вы сможете увидеть, как каждая группа сравнивается с другими. Значение, равное единице, является абсолютной корреляцией, которая указывает на то, что значения точно такие же. Чем ближе значение корреляции к единице, тем сильнее корреляция.

Регрессия в Excel

Регрессия — один из наиболее часто используемых статистических тестов в отрасли, и Excel предлагает удивительные возможности для этого расчета. Здесь мы сделаем быструю множественную регрессию в Excel. Если вы не знакомы с регрессией, ознакомьтесь с руководством HBR по использованию регрессии в бизнесе .

Допустим, наша зависимая переменная — артериальное давление, а две независимые переменные — вес и потребление соли. Мы хотим узнать, какой показатель артериального давления лучше всего (или оба ли хороши).

Щелкните Анализ данных и выберите Регрессия. На этот раз будьте осторожны при заполнении полей ввода. Диапазон ввода Y должен содержать вашу единственную зависимую переменную. Поле Input X Range может включать несколько независимых переменных. Для простой регрессии не беспокойтесь об остальном (хотя обязательно сообщите Excel, если вы выбрали метки).

Вот как выглядит наш расчет:

базовый анализ данных в Excel

После нажатия ОК вы получите большой список результатов. Я выделил здесь значение P для веса и потребления соли:

базовый анализ данных в Excel

Как видите, значение P для веса больше 0,05, поэтому здесь нет значимой связи. Однако значение P для соли меньше 0,05, что указывает на то, что это хороший показатель артериального давления.

Если вы планируете представить данные регрессии, помните, что вы можете добавить линию регрессии на диаграмму рассеяния в Excel. Это отличное наглядное пособие для анализа.