Загрузка датасета в Excel. Только два способа.
Ваш файл имеет расширение CSV (от англ. Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных. Строка таблицы соответствует строке текста, которая содержит одно или несколько полей, разделенных запятыми.
Формат CSV стандартизирован не полностью.
Поэтому при открытии в MS Excel данные в некоторых столбцах (даты, десятичные числа, номера версий продуктов) могут отображаться неверно.
Содержимое файла можно увидеть в Блокноте (Открыть с помощью...):
Посмотрите на данные в Блокноте.
Закройте Блокнот.
Теперь импортируем датасет в MS Excel.
Способ 1 (неофициальный, но рекомендую). В Блокноте выполнить замену запятой на точку с запятой по всему файлу. Сохранить под новым именем. Из Проводника новый файл открыть в MS Excel.
Способ 2.
Запускаем MS Excel. Создаем Новую книгу. Далее меню Данные – из текстового/CSV-файла.
Загрузить.
Замечание к обоим способам.
Если какие-то столбцы исказились (например, версии продукта4.01.03 превратилась в 4 января 2003), то в данной лабораторной работе откажитесь от использования этих столбцов, возьмите для анализа другие. В реальных условиях (на работе) рекомендую открыть файл в Google Table или Libre Office, искажений будет меньше. Дальше исправлять средствами Excel.
Проверьте, что установлен разделитель целой и десятичной части как точка (Файл – Параметры – снять галочку Использовать системные разделители – установить Разделитель точка)
|
|
Оставим только выбранные ранее столбцы. Удалите лшние.
Основные статистические харатеристики
Ценное Замечание: Выделить диапазон от позиции курсора до конца вниз Ctrl-Shift-↓
Создадим новый лист с названием Описательные характеристики, скопируем на него заголовки столбцов:
Описательные характеристики для количественных признаков
Для количественных данных рассчитаем, пользуясь функциями и переходя на нужные листы:
· средние значения (=СРЗНАЧ(...))
· дисперсии (=ДИСП()
· среднеквадратические отклонения (=СТАНДОТКЛОН(...))
· медианы (=МЕДИАНА(...))
· моды (=МОДА(...))
Выяснть самостоятельно смысл этих понятий.
Замечание: Обратите внимание на запись диапазона ячеек: если вы используете строку заголовков (щелчок по таблице – Конструктор таблиц – строка заголовков), то диапазон записывается по названию заголовка =СРЗНАЧ(acs2015_county_data[TotalPop]), а не =СРЗНАЧ(D2:D3221)
Описательные характеристики для качественных признаков
Для качественных данных рассчитаем
· моды
Моду можно найти в Excel, если построить частотную таблицу (таблица частоты встречамости для каждого значения признака) и взять максимальное значение. Сделаем это в разделе Визуализация
|
|
2.3 "Что делать, если числа вопринимаются как текст"
Возможно, при вычислении среднего появится деление на ноль. Причина в том, что, хотя формат ячейки Числовой, данные воспринимаются как текстовые. Исправление: Главная – Заменить – точку на точку (да-да!)
Всё получится.
Визуальный анализ
Формулировать постановку задачи для визуализации нужно самостоятельно. Достаточно одного - двух графиков для каждой комбнации типов данных: два количественных признака, два качественных признака, качественный и количественный признаки.
Дата добавления: 2022-12-03; просмотров: 149; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!