Текстовая информация по своей природе дискретна, т. к. представляется последовательностью отдельных символов.

Задание по дисциплине «Информатика и ИКТ»

Для студентов групп 1ТЭО-21,1ТОРА-21 на 18.10.2021г.

Выполнить до 19.10.2021г.

Адрес обратной связи для студентов

Электронная почта преподавателя : taniazinich@mail.ru

Страница ВК: Татьяна Зинич ( https://vk.com/id617853409 )

Задание:

1. Ознакомиться с теоретическим материалом.

2. Перейти по ссылке и посмотреть обучающее видео («Представление текстовой информации в компьютере»): https://www.youtube.com/watch?v=IX60-MK53cc

3. Выделенный текст в конце лекции «САМОЕ ГЛАВНОЕ» записать в конспект.

4. Письменно ответить на вопросы для самоконтроля.

5. Задание выполнить в рабочей тетради, сфотографировать и переслать преподавателю.

Лекция №

Тема: Представление текстовой информации в компьютере.

План

1. Информационный объём текстового сообщения.

2. Кодировка ASCII и её расширение.

3. Кодировка КОИ-8.

4. Кодировка Windows-1251.

5. Стандарт Unicode.

Всякий текст состоит из символов – букв, цифр, знаков препинания и т.д., которые человек различает по начертанию. Однако для компьютерного представления текстовой информации такой метод неудобен, а для компьютерной обработки текстов и вовсе неприемлем.

Поскольку текст изначально дискретен – он состоит из отдельных символов, - для компьютерного представления текстовой информации используется другой способ: все символы кодируются числами, и текст представляется в виде набора чисел – кодов символов, его составляющих. При выводе текста на экран монитора или принтер необходимо восстановит изображения всех символов, составляющих данный текст. Для этого используются кодовые таблицы символов, в которых каждому коду символа ставится в сообщение изображение символа.

Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов. На заре компьютерной эры, когда США были абсолютным лидером в этой области, стандарты разрабатывались Американским национальным институтом стандартизации (ANSI); впоследствии для разработки и принятия компьютерных стандартов была создана Международная организация стандартизации (ISO).

В программировании наиболее часто используются однобайтовые кодировки: в них код каждого символа занимает ровно 1 байт, или 8 бит. При этом общее количество различаемых символов составляет 2⁸=256, а коды символов имеют значения от 0 до 255.

Информационный объём блока информации называется количеством бит, байт или производных единиц (килобайт, мегабайт), необходимых для записи этого блока путём заранее оговоренного способа двоичного кодирования.

Пример 1. Оценить в байтах объём текстовой информации в Словаре из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы). Будем считать, что при записи используется кодировка «один символ - один байт». Количество символов во всём словаре равно 80*60*740=3552000. следовательно, объём в байтах равен 3552000 байт = 3468,75 Кбайт = 3,39 Мбайт.

Основой для компьютерных стандартов кодирования послужил ASCII (American Standard Code for Information Interchange) – американский стандартный код для обмена информацией, разработанный в 1960-х годах и применяемый в США для любых видов передачи информации, в том числе и некомпьютерных (телеграф, факсимильная связь и т.д.). В нём используется 7-битовое кодирование: общее количество символов составляет 27=128, из них первые 32 символа – управляющие, а остальные – «изображаемые», т.е. имеющие графическое изображение. Управляющие символы должны восприниматься устройством вывода текста как команды, например:

К изображаемым символам в ASCII относятся буквы английского алфавита (прописные и строчные), цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы. Хотя в ASCII символы кодируются 7 битами, в памяти компьютера под каждый символ отводится ровно 1 байт, при этом код символа помещается в младшие биты, а старший бит не используется. Главный недостаток стандарта ASCII заключается в том, что он рассчитан на передачу только английского текста. Со временем возникла необходимость кодирования и неанглийских букв. Во многих странах для этого стали разрабатывать расширения ASCII- кодировки, в которых применялись однобайтовые коды символов; при этом первые 128 символов кодовой таблицы совпадали с кодировкой ASCII, а остальные (со 128-го по 255-й) использовались для кодирования букв национального алфавита, символов национальной валюты и т.п. Из-за несогласованности этих разработок для многих языков было создано по нескольку вариантов кодовых таблиц (например, для русского языка их около десятка!).

КОИ8-Р является стандартом de facto для всех служб Интернета, кроме WWW. В частности, все службы электронной почты и новостей Рунета работают в этой кодировке. Что касается Веба, то здесь ситуация сложнее. Дело в том, что более 90% клиентских компьютеров Сети работает под управлением Windows разных версий. Windows использует собственную кодировку русских букв, которую принято назвать по номеру кодовой страницы Windows-1251 или CP1251. Поскольку текстовые редакторы и средства разработки HTML-страниц в Windows работают в этой кодировке, абсолютное большинство Веб-документов Рунета хранится в кодировке Windows-1251.

Табл. 2. Кодировка текстовой информации в стандарте ASCII.

Пример 2. Слово COMPUTER, закодированное в кодах ASCII выглядит так:

С O M P U T E R

067 079 077 080 085 084 069 082

Если учесть, что в двоичном представлении для кодирования каждого символа используется 8-ми разрядный код, то получится двоичный код длиной в 64 символа 1000001110011111001101101000010101101010010001011010010

Впоследствии использование кодовых таблиц было несколько упорядочено: каждой кодовой таблице было присвоено особое название и номер. Указав кодовую таблицу, автоматически выбирают и язык, которым можно пользоваться в дополнение к английскому; точнее, выбирается то, как будут интерпретироваться символы с кодами более 127.

Для русского языка наиболее распространёнными являются однобайтовые кодовые таблицы CP-866 (Code Page), Windows-1251 и КОИ-8. В них первые 128 символов совпадают с ASCII-кодировкой, а русские буквы размещены во второй части таблицы, однако коды русских букв в этих кодировках различны! Сравните, например, кодировки КОИ-8 (Код Обмена Информацией 8-битовый, международное название koi-8r) и Windows-1251, вторые половины которых приведены в Табл.2 и 3 соответственно.

Несовпадение кодовых таблиц приводит к ряду неприятных эффектов, например, т.к. один и тот же текст имеет различное компьютерное представление в разных кодировках, то текст, набранный в одной кодировке, будет нечитабельным в другой!

Пример 3. Вот так будет выглядеть десятичный код слова «Диск» в разных кодировках:

Однобайтовые кодировки обладают одним серьёзным ограничением: качество различных кодов символов в этих кодировках недостаточно велико, чтобы можно было пользоваться одновременно несколькими языками. Для устранения этого ограничения в 1993 году был разработан новый стандарт кодирования символов, получивший название Unicode, который, по замыслу его разработчиков, позволил бы использовать в текстах любые символы любых языков мира.

Табл. 3. Кодировка КОИ-8 КОИ – Код Обмена Информацией – 8-разрядный код, ориентированный на обмен сообщениями в Интернет

В Unicode на кодирование символов отводится 31 бит. Первые 128 символов (коды 0-127) совпадают с таблицей ASCII; далее размещены основные алфавиты современных языков: они полностью умещаются в первой части таблицы, их коды не превосходят 65536 (216). А в целом стандарт Unicode описывает алфавиты всех известных, в том числе и «мёртвых» языков; для языков, имеющих несколько алфавитов (например, японский и индийский), закодированы все варианты; в кодировку Unicode внесены все математические и иные научные символьные обозначения и даже некоторые придуманные языки (например, письменности эльфов по Р.Р.Толкиену). потенциальная информационная ёмкость 31-битового Unicode столь велика, что используется менее одной тысячной части возможных кодов символов!

В современных компьютерах и операционных системах используется укороченная, 16-битовая версия Unicode, в которую входят все современные алфавиты; эта часть Unicode называется базовой многоязыковой страницей (Base Multilingual Plane, BMP). UNICODE – 16 – разрядная система кодирования (65536 символов) охватывает символы всех языков (включая языки, использующие иероглифы, например, китайский и японский). Стандарт Unicode 3.2 поддерживает следующие языки народов России с дополнительными кириллическими буквами: алтайский, башкирский, бурятский, долганский, калмыцкий, коми, корякский, марийский, нанайский, ненецкий, осетинский, саамский (без указания долготы гласных), татарский, тувинский, удмуртский, хакасский, хантыйский, чувашский, эвенкийский, эвенский, якутский, кавказские языки с буквой «палочка».

В UNIX-подобных операционных системах, где работа с Unicode-текстами невозможна из-за особенностей архитектуры, используются особые формы этого стандарта, которые называются UTF (Unicode Transformation Form), в них символы кодируются переменным количеством битов. Например, в UTF-8 коды символов занимают от 1 до 6 байтов.

Табл. 4. Кодировка Windows-1251.

Табл. 5. Дополнительные буквы языков народов России, поддерживаемые стандартом Unicode 3.2

С точки зрения компьютера текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже пробелы между словами: пустое место в тексте тоже должно иметь свое обозначение. При нажатии клавиши клавиатуры сигнал посылается в компьютер в виде двоичного числа, которое хранится в кодовой таблице. Кодовая таблица - это внутреннее представление символов в компьютере. Например, буква S имеет код 01010011; при нажатии ее на клавиатуре происходит декодирование двоичного кода и по нему строится изображение символа на экране монитора. Каждый символ хранится в виде двоичного кода, который является номером символа. Можно сказать, что компьютер имеет собственный алфавит, где весь набор символов строго упорядочен. Количество символов в алфавите также тесно связано с двоичным представлением и у всех ЭВМ равняется 256. Иными словами, каждый символ всегда кодируется 8 битами, т.е. занимает ровно один байт.

В компьютере хранится не начертание буквы, а её номер. Именно по этому номеру воспроизводится вид символа на экране дисплея или на бумаге. Поскольку алфавиты в различных типах ЭВМ не полностью совпадают, при переносе с одной модели на другую может произойти превращение разумного текста в «абракадабру». Такой эффект иногда получается даже на одной машине в различных программных средах: например, русский текст, набранный в MS DOS, нельзя без специального преобразования прочитать в Windows. Остается утешать себя тем, что задача перекодировки текста из одной кодовой таблицы в другую довольно проста и при наличии программ машина сама великолепно с ней справляется.

Интересно, что каждый символ текста имеет свой числовой код, но не каждому коду соответствует отображаемый на экране символ. Речь идет об управляющих символах, величина которых меньше шестнадцатиричного числа 20 (т.е. 32 в десятичной системе счисления). При получении этих кодов внешние устройства не изображают какого-либо символа, а выполняют те или иные управляющие действия. Так, код 07 вызывает подачу стандартного звукового сигнала, а код 0C - очистку экрана. Особую роль играют коды 0A (перевод строки, обозначаемый часто LF) и 0D (возврат каретки - CR). Первый вызывает перемещение в следующую строку без изменения позиции, а второй - на начало текущей строки. Таким образом, для перехода на начало новой строки требуются оба кода и в любом тексте эта «неразлучная пара» кодов хранится после каждой строки.

САМОЕ ГЛАВНОЕ

Текстовая информация по своей природе дискретна, т. к. представляется последовательностью отдельных символов.

В памяти компьютера хранятся специальные кодовые таблицы, в которых для каждого символа указан его двоичный код. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

Основой для компьютерных стандартов кодирования символов послужил код ASCII, рассчитанный на передачу только английского текста. Расширения ASCII — кодировки, в которых первые 128 символов кодовой таблицы совпадают с кодировкой ASCII, а остальные (со 128-го по 255-й) используются для кодирования букв национального алфавита, символов национальной валюты и т. п.

В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира. Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.

Вопросы для самоконтроля.

1. Что представляет собой кодировка ASCII? Сколько символов она включает? Какие это символы?

2. С помощью таблицы 2 декодируйте сообщение 64 65 73 6В 74 6F 70.

Дата добавления: 2022-01-22; просмотров: 35; Мы поможем в написании вашей работы!

Поделиться с друзьями:

Мы поможем в написании ваших работ!