Загрузка датасета в Excel. Только два способа.



 

Ваш файл имеет расширение CSV (от англ. Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных. Строка таблицы соответствует строке текста, которая содержит одно или несколько полей, разделенных запятыми.

Формат CSV стандартизирован не полностью.

Поэтому при открытии в MS Excel данные в некоторых столбцах (даты, десятичные числа, номера версий продуктов) могут отображаться неверно.

 

Содержимое файла можно увидеть в Блокноте (Открыть с помощью...):

 

 

Посмотрите на данные в Блокноте.

Закройте Блокнот.

 

Теперь импортируем датасет в MS Excel.

 

Способ 1 (неофициальный, но рекомендую). В Блокноте выполнить замену запятой на точку с запятой по всему файлу. Сохранить под новым именем. Из Проводника новый файл открыть в MS Excel.

 

Способ 2.

Запускаем MS Excel. Создаем Новую книгу. Далее меню Данные – из текстового/CSV-файла.

 

 

Загрузить.

 

 

Замечание к обоим способам.

 

Если какие-то столбцы исказились (например, версии продукта4.01.03 превратилась в 4 января 2003), то в данной лабораторной работе откажитесь от использования этих столбцов, возьмите для анализа другие. В реальных условиях (на работе) рекомендую открыть файл в Google Table или Libre Office,  искажений будет меньше. Дальше исправлять средствами Excel.

 

 

Проверьте, что установлен разделитель целой и десятичной части как точка (Файл – Параметры – снять галочку Использовать системные разделители – установить Разделитель точка)

 

Оставим только выбранные ранее столбцы. Удалите лшние.

 

Основные статистические харатеристики

 

Ценное Замечание: Выделить диапазон от позиции курсора до конца вниз Ctrl-Shift-↓

 

Создадим новый лист с названием Описательные характеристики, скопируем на него заголовки столбцов:

 

 

Описательные характеристики для количественных признаков

Для количественных данных рассчитаем, пользуясь функциями и переходя на нужные листы:

 

· средние значения (=СРЗНАЧ(...))

· дисперсии (=ДИСП()

· среднеквадратические отклонения (=СТАНДОТКЛОН(...))

· медианы (=МЕДИАНА(...))

· моды (=МОДА(...))

 

Выяснть самостоятельно смысл этих понятий.

 

 

 

 

Замечание: Обратите внимание на запись диапазона ячеек: если вы используете строку заголовков (щелчок по таблице – Конструктор таблиц – строка заголовков), то диапазон записывается по названию заголовка =СРЗНАЧ(acs2015_county_data[TotalPop]), а не =СРЗНАЧ(D2:D3221)

 

Описательные характеристики для качественных признаков

 

Для качественных данных рассчитаем

· моды

Моду можно найти в Excel, если построить частотную таблицу (таблица частоты встречамости для каждого значения признака) и взять максимальное значение. Сделаем это в разделе Визуализация

 

2.3 "Что делать, если числа вопринимаются как текст"

 

Возможно, при вычислении среднего появится деление на ноль. Причина в том, что, хотя формат ячейки Числовой, данные воспринимаются как текстовые. Исправление: Главная – Заменить – точку на точку (да-да!)

Всё получится.

 

 

 

 

Визуальный анализ

 

Формулировать постановку задачи для визуализации нужно самостоятельно. Достаточно одного - двух графиков для каждой комбнации типов данных: два количественных признака, два качественных признака, качественный и количественный признаки.

 


Дата добавления: 2022-12-03; просмотров: 149; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!