Расчет количества текстовой информации



Практическое занятие 2

 

Тема. Перевод информации в двоичную систему счисления

Цель. Познакомить со способами кодирования информации в компьютере, научиться -выполнять расчеты количества текстовой информации, кодировать информацию в двоичной системе счисления

Средства обучения. Аппаратно – программная база: компьютер, мультимедийный проектор, принтер; Windous XP, Microsoft Word, Microsoft Power Point, браузер Internet Excplorer.

Подготовка студентов к занятию

Н. Угринович. – М.: БИНОМ. Лаборатория знаний. 2006г. Информатика и информационные технологии (стр. 72 -119).

Пояснения к выполнению работы

Презентация

Кодирование текстовой информации (слайд 1).

Рассматриваемые вопросы (слайд 2):

- исторический экскурс;

- двоичное кодирование текстовой информации;

- расчет количества текстовой информации.

Исторический экскурс

Человечество использует шифрование (кодировку) текста с того самого момента, когда появилась первая секретная информация. Перед вами несколько приёмов кодирования текста, которые были изобретены на различных этапах развития человеческой мысли (слайд 3):

- криптография – это тайнопись, система изменения письма с целью сделать текст непонятным для непосвященных лиц;

- азбука Морзе или неравномерный телеграфный код, в котором каждая буква или знак представлены своей комбинацией коротких элементарных посылок электрического тока (точек) и элементарных посылок утроенной продолжительности (тире);

- сурдожесты – язык жестов, используемый людьми с нарушениями слуха.

Вопрос: Какие примеры кодирования текстовой информации можно привести еще?

 (Показ слайда 4). Один из самых первых известных методов шифрования носит имя римского императора Юлия Цезаря (I век до н.э.) [4]. Этот метод основан на замене каждой буквы шифруемого текста, на другую, путем смещения в алфавите от исходной буквы на фиксированное количество символов, причем алфавит читается по кругу, то есть после буквы я рассматривается а. Так слово байт при смещении на два символа вправо кодируется словом гвлф. Обратный процесс расшифровки данного слова – необходимо заменять каждую зашифрованную букву, на вторую слева от неё.

(Показ слайда 5) Расшифруйте фразу персидского поэта Джалаледдина Руми “кгнусм ёогкг фесл тцфхя фзужщз фхгрзх ёогксп”, закодированную с помощью шифра Цезаря. Известно, что каждая буква исходного текста заменяется третьей после нее буквой. В качестве опоры используйте буквы русского алфавита, расположенные на слайде.

Что у вас получилось?

Ответ:

Закрой глаза свои пусть сердце станет глазом

Ответ сравнивается с появившемся на слайде 5 правильным ответом.

Двоичное кодирование текстовой информации

Вопрос: В каком из перечисленных приёмов кодирования используется двоичный принцип кодирования информации?

Ответ : В азбуке Морзе.

В компьютере также используют принцип двоичного кодирования информации. Только вместо точки и тире используют 0 и 1 (слайд 6).

Традиционно для кодирования одного символа используется 1 байт информации.

Вопрос: Какое количество различных символов можно закодировать?

Ответ: N = 2I = 28 = 256.

 Достаточно ли этого для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры и другие символы?

Подсчитайте  количество различных символов:

- 33 строчные буквы русского алфавита + 33 прописные буквы = 66;

- для английского алфавита 26 + 26 = 52;

- цифры от 0 до 9 и т.д.

Вывод: Получается, что нужно 127 символов. Остается еще 129 значений, которые можно использовать для обозначения знаков препинания, арифметических знаков, служебных операций (перевод строки, пробел и т.д.. Следовательно, одного байта вполне хватает, чтобы закодировать необходимые символы для кодирования текстовой информации.

             В компьютере каждый символ кодируется уникальным кодом. Принято интернациональное соглашение о присвоении каждому символу своего уникального кода. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange) (слайд 7). В этой таблице представлены коды от 0 до 127 (буквы английского алфавита, знаки математических операций, служебные символы и т.д.), причем коды от 0 до 32 отведены не символам, а функциональным клавишам. Коды с 128 по 255 выделены для национальных стандартов каждой страны. Этого достаточно для большинства развитых стран. Для России были введены несколько различных стандартов кодовой таблицы (коды с 128 по 255). Вот некоторые из них (слайд 8-9).  КОИ8-Р, СР1251, СР866, Мас, ISO.

Например

В текстовом редакторе MS Word чтобы вывести на экране символ по его номеру кода, необходимо удерживая на клавиатуре клавишу “ALT” набрать код символа на дополнительной цифровой клавиатуре. Запустите текстовый редактор MS Word. Удерживая клавишу “ALT”, наберите коды на дополнительной цифровой клавиатуре (слайд 10): 133 232 242

Какое слово получили?

Ответ: бит.

Закройте файл без сохранения.

Понятие кодировки Unicode (слайд 11). В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать два байта (16 бит).

Вопрос: Сколько символов можно закодировать двумя байтами

Ответ : 65536

Такая кодировка называется Unicode и обозначается как UCS-2. Этот код включает в себя все существующие алфавиты мира, а также множество математических, музыкальных, химических символов и многое другое.

 Существует кодировка и UCS-4, где для кодирования используют 4 байта, то есть можно кодировать более 4 млрд. символов.

Расчет количества текстовой информации

Так как каждый символ кодируется 1 байтом, то информационный объем текста можно узнать, умножив количество символов в тексте на 1 байт.

Проверим это на практике. Включите монитор, создайте текстовый документ в редакторе Блокнот и напечатайте в нём пословицу (слайд 12): “Ученье – атаман, а неученье – комар”. Сколько в ней символов?

Ответ: 36

Сохраните и закройте файл в своей папке (папка «Мои документы» - «Иванов»). Определите его объем в байтах. Каков он?

Ответ: 36 байт

Кодирование информации с физической точки зрения. С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде проследовательность нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента:

  • 0 – отсутствие электрического сигнала;
  • 1 – наличие электрического сигнала.

Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Вам приходится постоянно сталкиваться с устройством, которое может находится только в двух устойчивых состояниях: включено/выключено. Конечно же, это хорошо знакомый всем выключатель. А вот придумать выключатель, который мог бы устойчиво и быстро переключаться в любое из 10 состояний, оказалось невозможным. В результате после ряда неудачных попыток разработчики пришли к выводу о невозможности построения компьютера на основе десятичной системы счисления. И в основу представления чисел в компьютере была положена именно двоичная система счисления. Таким образом, информация, которою обработает компьютер, должна быть представлена двоичным кодом с помощью двух цифр – 0 и 1.
Эти два символа 0 и 1 принято называть битами (от англ. binary digit – двоичный знак).

С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса:

  • кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код
  • декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.

Рассмотрим основные способы двоичного кодирования информации в компьютере.

Для записи информации о количестве объектов используются числа. Числа записываются с использование особых знаковых систем, которые называют системами счисления.

Система счисления – совокупность приемов и правил записи чисел с помощью определенного набора символов. Все системы счисления делятся на две большие группы: позиционные и непозиционные.
Позиционные - количественное значение каждой цифры числа зависит от того, в каком месте (позиции или разряде) записана та или иная цифра.
Непозиционные - количественное значение цифры числа не зависит от того, в каком месте (позиции или разряде) записана та или иная цифра.

Самой распространенной из непозиционных систем счисления является римская. В качестве цифр используются: I(1), V(5), X(10), L(50), C(100), D(500), M(1000).
Величина числа определяется как сумма или разность цифр в числе.
MCMXCVIII = 1000+(1000-100)+(100-10)+5+1+1+1 = 1998
Первая позиционная система счисления была придумана еще в Древнем Вавилоне, причем вавилонская нумерация была шестидесятеричная, т.е. в ней использовалось шестьдесят цифр! В XIX веке довольно широкое распространение получила двенадцатеричная система счисления. В настоящее время наиболее распространены десятичная, двоичная, восьмеричная и шестнадцатеричная системы счисления. Количество различных символов, используемых для изображения числа в позиционных системах счисления, называется основанием системы счисления.


Дата добавления: 2019-02-12; просмотров: 441; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!