Кодирование текстовой информации
учебно-методический материал по информатике и икт (7 класс)

Кодирование текстовой информации

Цели и задачи урока:

— познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;

— познакомиться со способом определения информационного объема текстового сообщения;

— познакомиться с алгоритмом Хаффмана.

 

Скачать:

ВложениеРазмер
Office presentation icon 1_7_kodirovanie_tekstovoy_informatsii.ppt215 КБ
Файл kodirovanie_tekstov.docx486.81 КБ

Предварительный просмотр:


Подписи к слайдам:

Слайд 1

Двоичное кодирование текстовой информации Информация и информационные процессы https://resh.edu.ru/subject/lesson/5225/main/203088/

Слайд 2

Двоичное кодирование в компьютере Вся информация, которую обрабатывает компьютер должна быть представлена двоичным кодом с помощью двух цифр: 0 и 1 . Эти два символа принято называть двоичными цифрами или битами . С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса: кодирование и декодирование. Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код. Декодирование – преобразование данных из двоичного кода в форму, понятную человеку. Привет! 1001011

Слайд 3

Почему двоичное кодирование С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента: 0 – отсутствие электрического сигнала; 1 – наличие электрического сигнала. Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды . Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.

Слайд 4

Двоичное кодирование текстовой информации Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации. Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).

Слайд 5

1 символ – 1 байт (8 бит) Для кодирования одного символа требуется один байт информации. Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. 2 8 =256

Слайд 6

Двоичное кодирование текстовой информации Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255). Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.

Слайд 7

Таблица кодировки Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки . Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII ( A merican S tandart C ode for I nformation I nterchange ) – Американский стандартный код для информационного обмена.

Слайд 8

Таблица кодировки ASCII Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита. В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251 , СР866, Mac, ISO ). В настоящее время получил широкое распространение новый международный стандарт Unicode , который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (2 16 = 65536 ) различных символов.

Слайд 10

Таблица расширенного кода ASCII Кодировка Windows-1251 (CP1251)

Слайд 11

Информационный объем текста Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы . Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов . В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации , то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах. Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.

Слайд 12

Обратите внимание! Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется их преобразование в другой двоичных код (см. урок «представление чисел в компьютере»). Возьмем число 57 . При использовании в тексте каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII. В двоичной системе это – 0011010100110111 . При использовании в вычислениях , код этого числа будет получен по правилам перевода в двоичную систему и получим – 00111001 .

Слайд 13

Вопросы и задания: В чем заключается кодирование текстовой информации в компьютере? Закодируйте с помощью ASCII -кода свою фамилию, имя, номер класса. Какое сообщение закодировано в кодировке Windows-1251: 0011010100100000111000011110000011101011111010111110111011100010 Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения из пушкинского четверостишия: Певец-Давид был ростом мал, Но повалил же Голиафа!



Предварительный просмотр:

кодирование текстов

https://resh.edu.ru/subject/lesson/5225/main/203088/

Тема — Кодирование текстовой информации

Цели и задачи урока:

— познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;

— познакомиться со способом определения информационного объема текстового сообщения;

— познакомиться с алгоритмом Хаффмана.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/d3209b67-45fa-4d3e-80a7-c647cc4361fe.png

Вся информация в компьютере хранится в двоичном коде. Поэтому надо научиться преобразовывать символы в двоичный код.

Формула Хартли определяет количество информации в зависимости от количества возможных вариантов:

N=2i, где

N — это количество вариантов,

i — это количество бит, не обходимых для кодирования.

Если же мы преобразуем эту формулу и примем за N — количество символов в используемом алфавите (назовем это мощностью алфавита), то мы поймем, сколько памяти потребуется для кодирования одного символа.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/df577714-5915-4893-9d5c-82bc9353498e.jpeg

N=2i, где N — кол-во возможных вариантов

i — кол-во бит, потребуемых для кодирования

Итак, если в нашем алфавите будет присутствовать только 32 символа, то каждый из них займет только 5 бит.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/45b70a33-901d-417d-bdc1-fe1ba00aae8b.png

И тогда каждому символу мы дадим уникальный двоичный код. Такую таблицу мы будем назвать кодировочной.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/f7778b42-7fe4-4ded-9824-4263d9a83d50.png

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/73c15970-376e-4172-a2c7-eb55117601a1.png

Первая широко используемая кодировочная таблица была создана в США и называлась ASCII, что в переводе означало American standard code for information interchange. Как вы видите, в таблице присутствуют не только латинские буквы, но и цифры, и даже действия. Каждому символу отводится 7 бит, а значит, всего было закодировано 128 символов.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/a04bbff0-c0d6-41da-b961-992e0bd0ef8d.png

Но так как этого количества было недостаточно, стали создаваться другие таблицы, в которых можно было закодировать и другие символы. Например, таблица Windows-1251, которая, по сути, являлась изменением таблицы ASCII, в которую добавили буквы кириллицы. Таких таблиц было создано множество: MS-DOS, КОИ-8, ISO, Mac и другие:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/232a7967-da46-4962-8081-5d8ef9e95680.jpeg

Проблема использования таких различных таблиц приводила к тому, что текст, написанный на одном компьютере, мог некорректно читаться на другом. Например:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/76418397-1d9c-4e1e-9607-ef9bc05da852.png

Поэтому была разработана международная таблица кодировки Unicode, включающая в себя как символы английского, русского, немецкого, арабского и других языков. На каждый символ в такой таблице отводится 16 бит, то есть она позволяет кодировать 65536 символов. Однако использование такой таблицы сильно «утяжеляет» текст. Поэтому существуют различные алгоритмы неравномерной кодировки текста, например, алгоритм Хаффмана.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/7c2dd651-3903-4369-8baf-4c1a52b042bd.png

АЛГОРИТМ ХАФФМАНА

Идея алгоритма Хаффмана основана на частоте появления символа в последовательности. Символ, который встречается в последовательности чаще всего, получает новый очень маленький код, а символ, который встречается реже всего, получает, наоборот, очень длинный код.

Пусть нам дано сообщение aaabcbeeffaabfffedbac.

Чтобы узнать наиболее выгодный префиксный код для такого сообщения, надо узнать частоту появления каждого символа в сообщении.

Шаг 1.

Подсчитайте и внесите в таблицу частоту появления каждого символа в сообщении:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/4659366a-9dea-4f3b-bc4a-c7ca262db853.png

У вас должно получиться:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/85aec77b-de2f-47b2-a789-542b7a844eb7.png

Шаг 2.

Расположите буквы в порядке возрастания их частоты.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/fa0d4ce1-61ce-4b19-a6cc-df528074ae5c.png

Шаг 3.

Теперь возьмем два символа с наименьшей чистотой и представим их листьями в дереве, частота которого будет равна сумме частот этих листьев.

Символы d и c превращаются в ветку дерева:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/5f5ff1c6-ddb1-44dd-838e-41c476819451.png

Шаг 4.

Проделываем эти шаги до тех пор, пока не получится дерево, содержащее все символы.

Итак, сортируем таблицу:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/51f94c3b-05c0-4856-bb70-d043938bbccf.png

Шаг 5.

Объединяем символ e и символ cd в ветку дерева:

d

C

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/9ef0fc0a-f12f-47d4-ad35-2b133a10e1e0.png

Шаг 6.

Сортируем:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/0c9b3bed-c1a7-4394-a74f-a9d082f9b0ac.png

Шаг 7.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/a49b1e7e-a5af-4be0-a477-13466e840200.png

Шаг 8.

Сортируем:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/3c7d0802-e281-4c0e-827d-9fb2410b5c80.png

Шаг 9.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/d6430d05-925d-4ff6-a34b-141d4a7fd65d.png

Шаг 10.

Сортируем:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/d46e1221-96bc-492c-826b-f5c7283c4bed.png

Шаг 11.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/ca73fe9e-190e-4a8b-a80f-7cfcf6eacb7d.png

Шаг 12.

Получился префиксный код. Теперь осталось расставить 1 и 0. Пусть каждая правая ветвь обозначает 1, а левая — 0.

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/8fc7da0b-246a-4a3e-bbb0-3e5e4ed2800b.png

Шаг 13.

Составляем код буквы, идя по ветке дерева от буквы к основанию дерева.

Тогда код для каждой буквы будет:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/d745e684-5e77-4e29-901c-aad9311bf6a4.png

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/5b6a5d15-dc48-4650-aa9e-79cd6cf6c65f.png

Задание №1

Закодируйте ASCII кодом слово MOSCOW.

Решение:

Составим таблицу и поместим туда слово MOSCOW. Используя таблицу ASCII кодов, закодируем все буквы слова:

M

O

S

C

O

W

1001101

1001111

1010011

1000011

1001111

1110111

ОТВЕТ: 100110110011111010011100001110011111110111

Задание №2

Используя табличный код Windows1251, закодируйте слово КОМПЬЮТЕР.

Решение:

К

О

М

П

Ь

Ю

Т

Е

Р

234

206

204

239

252

254

242

197

208

Ответ: 234206204239252254242197208

Задание №3

Используя алгоритма Хаффмана, закодируйте сообщение: Россия

Решение:

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/0562e387-0b82-40bc-942d-dec7a14f7b75.png

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/b9b2435b-b0f5-4ff0-9205-a41d51903131.png

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/74f30ac5-9e12-49a6-99cf-5fb078ef1714.png

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/6a83b499-0b95-4da8-a707-fa37287df957.png

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/d106de90-3794-4ef1-84f1-47cfd490fbc8.png

Давайте все левые ветви обозначим «1», а правые – «0»

https://resh.edu.ru/uploads/lesson_extract/5225/20190801120111/OEBPS/objects/c_info_10_14_1/2ddaabe1-d41e-4593-a747-24139b0e1b70.png

Таким образом: С — 0, Р — 101, О — 100, И — 111, Я — 110

ОТВЕТ: 10110000111110


По теме: методические разработки, презентации и конспекты

Кодирование текстовой информации.Решение логических уравнений.

Материал разработан для подготовки учащихся к ЕГЭ. Предложены задачи и их  решение....

Презентация "Кодирование текстовой информации"

Презентация «Кодирование текстовой информации»9 классАвтор: Горина В. С., учитель информатикиУчебник: Угринович Н. Д. Информатика и ИКТ, учебник для 9 класса, М.: "БИНОМ. Лаборатория з...

Кодирование текстовой информации

Презентация к уроку информатики по учебнику И. Г. Семакин, Т. Ю. Шеина, Л. В. Шестакова, ИНФОРМАТИКА И ИКТ, 10 класс, профильный уровень....

"Кодирование текстовой информации. Кодировки русского алфавита". Практическая работа «Кодирование текстовой информации».

Конспект урока «Кодирование текстовой информации. Кодировки русского алфавита» предназначен для учителей информатики, преподающих в 8-х классах.Урок поделен на два этапа. На первом – предусмотрено изу...

Кодирование текстовой информации

Презентация к уроку по теме "Кодирование текстовой информации". Дается понятие кодовых таблиц, решаются первые задачи в этой теме....