кодирование текстовой информации

12

Click here to load reader

Transcript of кодирование текстовой информации

Page 1: кодирование текстовой информации

Кодирование текстовой информации

Page 2: кодирование текстовой информации

Кодирование символов

Текстовый файл

• на экране (символы)

• в памяти – двоичные коды

10000012 10000102 10000112 10001002

В файле хранятся не изображения символов, а их числовые коды в двоичной системе!!

65 66 67 68

Page 3: кодирование текстовой информации

Для кодирования символов используют различные кодовые таблицы

Например: символ код

Page 4: кодирование текстовой информации

1 байтовая таблица(ASCII)

• Всего можно закодировать 256 символов(с десятичными кодами от 0 до 255).

• Каждый символ занимает 1 байт памяти(или 8 бит, так как 28=256 )

Page 5: кодирование текстовой информации

• Первая половина таблицы - ASCII(коды 0 - 127) является международной, применяется для кодирования десятичных цифр, латинского алфавита, знаков препинания и управляющих символов.

• Вторая половина - расширенная(коды 128 - 255) применяется для кодирования национального алфавита, в частности в нашей стране для кодирования русских букв(кириллицы). Один из вариантов называется КОИ8-R

Page 6: кодирование текстовой информации

0 1 254 255127 128

таблица ASCII (международная)

Расширенная таблица

0-31 управляющие символы: 7 – звонок, 10 – новая строка, 13 – возврат

каретки, 27 – Esc. 32 пробелзнаки препинания: . , : ; ! ?специальные знаки: + - * / () {} []48-57 цифры 0..965-90 заглавные латинские буквы A-Z97-122 строчные латинские буквы a-z

25.12.13

Наиль Загидуллин МБОУ СОШ № 2 с. Стерлибашево

http://lessonnr.blogspot.ru/2013/06/9.html

Page 7: кодирование текстовой информации

25.12.13

Наиль Загидуллин МБОУ СОШ № 2 с. Стерлибашево

http://lessonnr.blogspot.ru/2013/06/9.html

Page 8: кодирование текстовой информации

Кодовая страница (расширенная таблица ASCII) CP-866CP-1251КОИ8-RWindows и т.д.

25.12.13

Наиль Загидуллин МБОУ СОШ № 2 с. Стерлибашево

http://lessonnr.blogspot.ru/2013/06/9.html

Page 9: кодирование текстовой информации

• Нужно иметь в виду, что в тексте также присутствуют невидимые символы, например, пробел(код 32), переход строки(код 10), возврат каретки(код 13). Последние два кода вставляются при нажатии на клавишу Enter(новый абзац), добавляя 2 байта информации в текст.

• Enter (новый абзац) – добавляет два байта!

Page 10: кодирование текстовой информации

Таблица Unicode (UTF-16)

• Windows, MS Office, …• Это 16-разрядная кодировка, т.е. в ней на

каждый символ отводится 2 байта памяти. Можно закодировать до 216 = 65536 символов

• Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Page 11: кодирование текстовой информации

Задачи: 1 Сколько бит памяти компьютера занимает слово

МИКРОПРОЦЕССОР, в кодировках Windows и Unicode?

2 Файл, созданный в блокноте содержит 10 абзацев по 650 символов каждый. Чему равен объём файла в байтах?

3 Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в коде Unicode, в кодировку ASCII. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах?

Page 12: кодирование текстовой информации

• 1 всего 14 символов• В Windows 14 х8 бит = 112 бит = =112:8=14

байт• В Unicode 14x16= 224 бит = 224:8=

=28 байт• 2 650 х 1байт х 10 + 2 х 9(enter) =

6500+18=6518 байт• 3 k – количество символов• 16 x k – 8 x k = 480 бит• 8 x k = 480 бит• k = 480 : 8 = 60 ответ: 60 символов