Кодирование текстовой информации



 

Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью.

Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 28 = 256. Но 8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ.

Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII.

Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

Вычисление информационного объема сообщения

 

Информационный объем текста складывается из информационных весов составляющих его символов.

Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать «васе» символы клавиатуры компьютера?

Достаточный алфавит

В алфавит мощностью 256 символов можно поместить практически все символы, которые есть на клавиатуре. Такой алфавит называется достаточным.

Т.к. 256 = 28, то вес 1 символа – 8 бит.

Единице в 8 бит присвоили свое название - байт.

1 байт=8бит.

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту.

Единицы измерения количества информации:

1 байт = 8 бит.

1 килобайт = 1 Кб = 1024 байта.

1 мегабайт = 1 Мб = 1024 Кб.

1 гигабайт = 1 Гб = 1024 Гб.

Информационный объем текста

Пример: Книга содержит 150 страниц. На каждой странице - 40 строк. В каждой строке 60 символов (включая пробелы. Найти информационный объем текста.

Решение:

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб.

351,56 / 1024 = 0,34 Мб. Ответ: Информационный объём текста 0,34Мб.

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб. Ответ: Информационный объём текста 0,34Мб.

Пример. Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

Дано: Информационный объем текста 3,5 Мб.

Найти количество символов в тексте

Решение: 1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб.

3584 Кб * 1024 = 3 670 016 байт.

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно 3 670 016. Ответ: Количество символов в тексте 3 670 016.

 

Пример. При регистрации в компьютерной системе каждому пользователю выдаётся пароль, состоящий из 15 символов и содержащий только символы Ш, К, О, Л, А (таким образом, используется 5 различных символов). Каждый такой пароль в компьютерной системе записывается минимально возможным и одинаковым целым количеством байт (при этом используют посимвольное кодирование и все символы кодируются одинаковым и минимально возможным количеством бит). Укажите объём памяти в байтах, отводимый этой системой для записи 30 паролей. В ответе запишите только число, слово «байт» писать не нужно.

Решение:

1. согласно условию, в пароле можно использовать 5 символов;

2. для кодирования номера одного из 5 символов нужно выделить 3 бита памяти (они позволяют закодировать 23 = 8 вариантов);

3. для хранения всех 15 символов пароля нужно 15×3 = 45 бит;

4. поскольку пароль должен занимать целое число байт, берем ближайшее большее (точнее, не меньшее) значение, которое кратно 8: это 48 = 6×8; то есть один пароль занимает 6 байт;

5. тогда 30 паролей занимают 6×30 = 180 байт. ответ: 180.


Дата добавления: 2019-09-13; просмотров: 278; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!