кодирование текстовой информации
Click here to load reader
Transcript of кодирование текстовой информации
Кодирование текстовой информации
Кодирование символов
Текстовый файл
• на экране (символы)
• в памяти – двоичные коды
10000012 10000102 10000112 10001002
В файле хранятся не изображения символов, а их числовые коды в двоичной системе!!
65 66 67 68
Для кодирования символов используют различные кодовые таблицы
Например: символ код
1 байтовая таблица(ASCII)
• Всего можно закодировать 256 символов(с десятичными кодами от 0 до 255).
• Каждый символ занимает 1 байт памяти(или 8 бит, так как 28=256 )
• Первая половина таблицы - ASCII(коды 0 - 127) является международной, применяется для кодирования десятичных цифр, латинского алфавита, знаков препинания и управляющих символов.
• Вторая половина - расширенная(коды 128 - 255) применяется для кодирования национального алфавита, в частности в нашей стране для кодирования русских букв(кириллицы). Один из вариантов называется КОИ8-R
0 1 254 255127 128
таблица ASCII (международная)
Расширенная таблица
0-31 управляющие символы: 7 – звонок, 10 – новая строка, 13 – возврат
каретки, 27 – Esc. 32 пробелзнаки препинания: . , : ; ! ?специальные знаки: + - * / () {} []48-57 цифры 0..965-90 заглавные латинские буквы A-Z97-122 строчные латинские буквы a-z
25.12.13
Наиль Загидуллин МБОУ СОШ № 2 с. Стерлибашево
http://lessonnr.blogspot.ru/2013/06/9.html
25.12.13
Наиль Загидуллин МБОУ СОШ № 2 с. Стерлибашево
http://lessonnr.blogspot.ru/2013/06/9.html
Кодовая страница (расширенная таблица ASCII) CP-866CP-1251КОИ8-RWindows и т.д.
25.12.13
Наиль Загидуллин МБОУ СОШ № 2 с. Стерлибашево
http://lessonnr.blogspot.ru/2013/06/9.html
• Нужно иметь в виду, что в тексте также присутствуют невидимые символы, например, пробел(код 32), переход строки(код 10), возврат каретки(код 13). Последние два кода вставляются при нажатии на клавишу Enter(новый абзац), добавляя 2 байта информации в текст.
• Enter (новый абзац) – добавляет два байта!
Таблица Unicode (UTF-16)
• Windows, MS Office, …• Это 16-разрядная кодировка, т.е. в ней на
каждый символ отводится 2 байта памяти. Можно закодировать до 216 = 65536 символов
• Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.
Задачи: 1 Сколько бит памяти компьютера занимает слово
МИКРОПРОЦЕССОР, в кодировках Windows и Unicode?
2 Файл, созданный в блокноте содержит 10 абзацев по 650 символов каждый. Чему равен объём файла в байтах?
3 Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в коде Unicode, в кодировку ASCII. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах?
• 1 всего 14 символов• В Windows 14 х8 бит = 112 бит = =112:8=14
байт• В Unicode 14x16= 224 бит = 224:8=
=28 байт• 2 650 х 1байт х 10 + 2 х 9(enter) =
6500+18=6518 байт• 3 k – количество символов• 16 x k – 8 x k = 480 бит• 8 x k = 480 бит• k = 480 : 8 = 60 ответ: 60 символов