Копирование названий столбцов и их описаний с сайта



Лабораторная работа для ИПЗ. Проект.

Оглавление

Лабораторная работа для ИПЗ. Проект. 1

0. Общие положения и задание. 1

1. Загрузка и подготовка датасета для анализа. 2

1.1 Переходим по ссылке, знакомимся с контентом страницы. 2

1.2. Выбор конкретного датасета, если их несколько. 3

1.3. Копирование названий столбцов и их описаний с сайта. 4

1.4. Отбор столбцов (признаков) для дальнейшей работы.. 7

1.5. Скачиваем датасет (или архив) и сохраняем его. 8

1.6. Загрузка датасета в Excel. Только два способа. 9

2. Основные статистические харатеристики. 11

2.1. Описательные характеристики для количественных признаков. 11

2.2. Описательные характеристики для качественных признаков. 12

2.3 "Что делать, если числа вопринимаются как текст". 12

3. Визуальный анализ. 13

3.1. Визуализация: два количественных признака. 13

3.1.1 Точечная диаграмма. 13

3.1.2 Гистограмма распределения. 14

3.2. Визуализация: качественные признаки. 15

3.2.1 Частотная таблица. 15

3.2.2 Таблица сопряженности. 17

3.3. Визуализация: Количественный и качественный признаки. 19

3.3.1 Распределение количественного признака для разных значений (категорий) качественного 19

3.3.2 Линейчатая диаграмма с категориями. 19

 

Общие положения и задание

Цель. Продемонстрировать комплекс навыков по работе в MS Office.

Научиться загружать и оформлять табличные данные из сети Интернет для дальнейшего анализа, а также проводить предварительный визуальный анализ данных.

Задания.

Вариант 25

Реализуйте проект по анализу данных и принятию решений методами машинного обучения.

1. Скачайте по ссылке https://www.kaggle.com/muonneutrino/us-census-demographic-data датасет с названием US Census Demographic Data.

2. Рассчитайте основные описательные статистики

3. Проведите визуальный анализ

4. При необходимости очистите данные

(не обязательный) 5. Сформулируйте задачу проекта

(не обязательный) 6. Выберите метод машинного обучения для решения задачи и составьте модель.

(не обязательный) 7. Оцените качество построенной модели

(не обязательный) 8. Опишите, как воспользоваться построенной моделью.

9. Сделайте презентацию и подготовьте рассказ

 

Рекомендации.

Выполнять лабораторную работу можно в MS Excel или его аналогах, можно использовать и другой инструментарий (R, Python, статистические пакеты, облачные сервисы).

Пример ниже выполняется с помощью Google Table и MS Excel (версия 365)

 

Порядок выполнения работы.

Загрузка и подготовка датасета для анализа

Переходим по ссылке, знакомимся с контентом страницы.

 

и ниже:

 

 

Обращаем внимание на Context, Content, Inspiration, переводим.

 

Из этих текстов извлекаем:

 

- общее описание, тему:

 

Набор данных включает данные переписи по США 2015 года по округам всех штатов.

 

В дальнейшем, по мере работы с датасетом, возможна корректировка

 

- идеи для анализа, предлагаемые автором датасета

 

Есть много вопросов, на которые мы могли бы попытаться ответить, используя данные здесь. Можем ли мы предсказать такие вещи, как состояние (классификация) или доход домохозяйства (регрессия)? Какие типы кластеров мы можем найти в данных?

 

 

Выбор конкретного датасета, если их несколько

 

Видим, что датасетов на странице несколько, ищем описания, по описанию выбираем датасет, с которым будем работать. В зависимости от варианта датасет может быть единственным.

 

Обращайте внимание на размер файлов.

 

Для отображения всех столбцов с их расшифровками выберите Select All

 

 

 

Копирование названий столбцов и их описаний с сайта

По разделу About this file можно перемещаться стрелками. Скопируем названия столбцов и их описания, переведем описания, это пригодится для отчета и для того, чтобы выбрать те столбцы, с которыми дальше будем работать.

 

 

 

Выделяйте мышью, аккуратно и до конца. Получится примерно так, как ниже.

 Выделены примеры служебных слов, которые нужно удалить (меню Главная -Заменить - ...)

 

 

CensusIdsort

County Census ID

text_formatStatesort

State, DC, or Puerto Rico

text_formatCountysort

County or county equivalent

grid_3x3TotalPopsort

Total population

grid_3x3Mensort

Number of men

grid_3x3Womensort

Number of women

grid_3x3Hispanicsort

% of population that is Hispanic/Latino

grid_3x3Whitesort

% of population that is white

grid_3x3Blacksort

% of population that is black

grid_3x3Nativesort

% of population that is Native American/Native Alaskan

grid_3x3Asiansort

% of population that is Asian

grid_3x3Pacificsort

% of population that is Native Hawaiian or Pacific Islander

grid_3x3Citizensort

Number of citizens

grid_3x3Incomesort

Median household income ($)

grid_3x3IncomeErrsort

Median household income error ($)

grid_3x3IncomePerCapsort

Income per capita ($)

grid_3x3IncomePerCapErrsort

Income per capita error ($)

grid_3x3Povertysort

% under poverty level

grid_3x3ChildPovertysort

% of children under poverty level

grid_3x3Professionalsort

% employed in management, business, science, and arts

grid_3x3Servicesort

% employed in service jobs

grid_3x3Officesort

% employed in sales and office jobs

grid_3x3Constructionsort

% employed in natural resources, construction, and maintenance

grid_3x3Productionsort

% employed in production, transportation, and material movement

grid_3x3Drivesort

% commuting alone in a car, van, or truck

grid_3x3Carpoolsort

% carpooling in a car, van, or truck

grid_3x3Transitsort

% commuting on public transportation

grid_3x3Walksort

% walking to work

grid_3x3OtherTranspsort

% commuting via other means

grid_3x3WorkAtHomesort

% working at home

grid_3x3MeanCommutesort

Mean commute time (minutes)

grid_3x3Employedsort

Number of employed (16+)

grid_3x3PrivateWorksort

% employed in private industry

grid_3x3PublicWorksort

% employed in public jobs

grid_3x3SelfEmployedsort

% self-employed

grid_3x3FamilyWorksort

% in unpaid family work

grid_3x3Unemploymentsort

Unemployment rate (%)

 

 

Очищенный текст преобразуем в таблицу с двумя столбцами (Вставка -Таблица – преобразровать в таблицу) , добавляем третий с переводом.

 


Дата добавления: 2022-12-03; просмотров: 14; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!