Презентация - Оценка количественных параметров текстовых документов. Обработка текстовой информации

Нажмите для просмотра
Оценка количественных параметров текстовых документов. Обработка текстовой информации
РаспечататьУникальность: 88%

Слайдов: 9
Просмотров: 4955
Скачиваний: 3072
Размер: 0.09 MB
Оцени!
На весь экран

Слайды и текст этой презентации

Слайд 1

Информатика и ИКТ
ОЦЕНКА КОЛИЧЕСТВЕННЫХ ПАРАМЕТРОВ ТЕКСТОВЫХ ДОКУМЕНТОВ
ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ

Слайд 2

Ключевые слова
кодовая таблица восьмиразрядный двоичный код информационный объём текста

Слайд 3

Представление текстовой информации в памяти компьютера
Текст состоит из символов - букв, цифр, знаков препинания и т. д., которые компьютер различает по их двоичному коду.
Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.
Кодовая таблица
0 – 32 - управляющие символы
ASCII
33 – 127 – латинские буквы, знаки препинания, цифры, знаки арифметических операций
128 – 256 – буквы национального алфавита

Слайд 4

Представление текстовой информации в памяти компьютера
Коды русских букв в разных кодировках
Фрагмент кодовой таблицы ASCII
Символ.Кодировка
Windows.КОИ-8
десятичный код.двоичный код.десятичный код.двоичный код
А.192.11000000.225.11100001
Б.193.11000001.226.11100010
В.194.11000010.247.11110111
Символ.Десятичный код.Двоичный код.Символ.Десятичный код.Двоичный код
Пробел.32.00100000.0.48.00110000
!.33.00100001.1.49.00110001
#.35.00100011.2.50.00110010
$.36.00100100.3.51.00110011
*.42.00101010.4.52.00110100
=.43.00101011.5.53.00110101
,.44.00101100.6.54.00110110
-.45.00101101.7.55.00110111
_.46.00101110.8.56.00111000
/.47.00101111.9.57.00111001
A.65.010000001.N.78.01001110
B.66.01000010.O.79.010001111
C.67.01000011.P.80.01010000
Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.
Стандарт кодирования символов Unicode позволяет пользоваться более чем двумя языками. В Unicode каждый символ кодируется шестнадцатиразрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65 536 различных символов: 216 = 65 536.

Слайд 5

Информационный объём фрагмента текста
I – информационный объём сообщения K – количество символов i – информационный вес символа
Задача 1. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо: Тысячи путей ведут к заблуждению, к истине - только один. Решение. В данном тексте 57 символов (с учётом знаков препинания и пробелов). Каждый символ кодируется одним байтом. Следовательно, информационный объём всего текста - 57 байтов. Ответ: 57 байтов.
Задача 3. Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 8-битовом коде, в 16-битовую кодировку Unicode. При этом информационное сообщение увеличилось на 2048 байтов. Каков был информационный объём сообщения до перекодировки? Решение. Информационный вес каждого символа в 16-битовой кодировке в два раза больше информационного веса символа в 8-битовой кодировке. Поэтому при перекодировании исходного блока информации из 8-битовой кодировки в 16-битовую его информационный объём должен был увеличиться вдвое, другими словами, на величину, равную исходному информационному объёму. Следовательно, информационный объём сообщения до перекодировки составлял 2048 байтов = 2 Кб. Ответ: 2 Кбайта.
Задача 2. В кодировке Unicode на каждый символ отводится два байта. Определите информационный объём слова из 24 символов в этой кодировке. Решение. I = 24 × 2 = 48 (байтов). Ответ: 48 байтов.
Задача 4. Выразите в мегабайтах объём текстовой информации в «Современном словаре иностранных слов» из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы). Считайте, что при записи использовался алфавит мощностью 256 символов.
I = K × i
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен: 8 битов (1 байт) - восьмиразрядная кодировка; 16 битов (2 байта) - шестнадцатиразрядная кодировка.
Решение.
K = 740 × 80 × 60 N = 256 I - ?
I = K×i N = 2i
Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.
256 = 2i = 28, i = 8 К = 740×80×60×8 = 28 416 000 бит = 3 552 000 байтов = = 3 468,75 Кбайт 3,39 Мбайт.
Ответ: 3,39 Мбайт.

Слайд 6

Самое главное
Текст состоит из символов - букв, цифр, знаков препинания и т. д., которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц. В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен: 8 битов (1 байт) - восьмиразрядная кодировка; 6 битов (2 байта) - шестнадцатиразрядная кодировка. Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.

Слайд 7

Вопросы и задания
РТ № 194 (стр. 84)
РТ № 196 (стр. 84)
В какой кодировочной таблице можно закодировать 65 536 различных символов? ASCII Windows КОИ-8 Unicode
В кодировке ASCII каждый символ кодируется 8 битами. Определите информационный объём сообщения в этой кодировке: Длина данного текста 32 символа. 32 бита 320 битов 32 байта 256 байтов
Почему кодировки, в которых каждый символ кодируется цепочкой из восьми нулей и единиц, называются иначе однобайтовыми?
С какой целью была введена кодировка Unicode?
В текстовом режиме экран монитора компьютера обычно разбивается на 25 строк по 80 символов в строке. Определите объём текста, занимающего весь экран монитора, в кодировке Unicode.
Сообщение занимает 6 страниц по 40 строк, в каждой строке записано по 60 символов. Информационный объём всего сообщения равен 28 800 байтам. Сколько двоичных разрядов было использовано на кодирование одного символа?
Сообщение, информационный объём которого равен 5 Кбайт, занимает 4 страницы по 32 строки, в каждой из которых записано по 40 символов. Сколько символов в алфавите языка, на котором записано это сообщение?
Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Алексея Толстого: Не ошибается тот, кто ничего не делает, хотя это и есть его основная ошибка. 512 битов 608 битов 8 Кбайт 123 байта
Считая, что каждый символ кодируется 16 битами, оцените информационный объем следующей фразы А. С. Пушкина в кодировке Unicode: Привычка свыше нам дана: Замена счастию она. 44 бита 704 бита 44 байта 704 байта

Слайд 8

Опорный конспект
Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.
Информационный вес символа
8 битов
16 битов
ASCII
Windows
КОИ-8
Unicode
I = K x i
I - информационный объём сообщения K – количество символов i – информационный вес символа

Слайд 9

Домашнее задание
§ 4.6 (стр. 174-180) РТ № 192 - 213 (стр. 84)