Урок в 10 классе "Вероятность и частота появления символов в тексте"
план-конспект урока по информатике и икт (10 класс)
Урок "Вероятеость и частота появленияя символов в тексте" в 10 классе, презентация к уроку, практическая работа для учеников в электронных таблицах.
Скачать:
Предварительный просмотр:
Практическая работа «Вероятность и информационный вес символов алфавита»
Задача. Вычислите информационный объем слова «информатика».
Каким подходом воспользуемся? Какие формулы будем использовать?
Новый материал.
Обсуждая алфавитный подход раньше, мы исходили из предположения равновероятности появление символов в тексте. Но разве символы в тексте встречаются с одинаковой частотой?
Как рассчитать частоту появления определенного символа в естественном языке?
Частота = Кол-во вхождений данного символа/Кол-во всех символов текста.
Частота появления символа – это отношение количества вхождений данного символа в текст к общему количеству символов в тексте.
В таблице 1.1 приведены частотные характеристики букв латинского алфавита в английских текстах, а в таблице 1.2 – русских букв в текстах на русском языке. Эти данные получены путем усреднения результатов обработки большого числа текстов.
Таблица 1.1
Буква | Частота | Буква | Частота | Буква | Частота | Буква | Частота |
E | 0,130 | S | 0,061 | U | 0,024 | K | 0,004 |
T | 0,105 | H | 0,052 | G | 0,020 | X | 0,0015 |
A | 0,081 | D | 0,038 | Y | 0,019 | J | 0,0013 |
O | 0,079 | L | 0,034 | P | 0,019 | Q | 0,0011 |
N | 0,071 | F | 0,029 | W | 0,015 | Z | 0,0007 |
R | 0,068 | C | 0,027 | B | 0,014 |
|
|
I | 0,063 | M | 0,025 | V | 0,009 |
|
|
Таблица 1.2
Буква | Частота | Буква | Частота | Буква | Частота | Буква | Частота |
пробел | 0,175 | Р | 0,040 | Я | 0,018 | Х | 0,009 |
О | 0,090 | В | 0,038 | Ы | 0,016 | Ж | 0,007 |
Е,Ё | 0,072 | Л | 0,035 | З | 0,016 | Ю | 0,006 |
А | 0,062 | К | 0,028 | Ь,Ъ | 0,014 | Ш | 0,006 |
И | 0,062 | М | 0,026 | Б | 0,014 | Ц | 0,003 |
Т | 0,053 | Д | 0,025 | Г | 0,013 | Щ | 0,003 |
Н | 0,053 | П | 0,023 | Ч | 0,013 | Э | 0,003 |
С | 0,045 | У | 0,021 | Й | 0,012 | Ф | 0,002 |
Посмотрите внимательно на эти таблицы. Какая буква английского алфавита наиболее часто употребляемая? – “E”, а наименее «популярная» – “Z”. А в русском тексте? буквы “О” и ”Ф”.
Сегодня на уроке мы рассмотрим, как подсчитать информационный объем сообщения, учитывая частотные характеристики символов.
Тема урока: «Вероятность и информационный вес символов алфавита»
Частота встречаемости буквы – это вероятность ее появления в определенной позиции текста – Р. Отсюда следует, что информационный вес символа вычисляется по формуле:i = log2(1/P)
i (бит) – информационный вес символа, частота которого (вероятность) равна P
По этой формуле можно подсчитать информационный вес любого символа. Например, чтобы подсчитать информационный вес русской буквы “О”, нужно: i=log2(1/0,09)=3,47 бит. А для буквы ‘Ф’: i=log2(1/0,002)=8,97 бит.
Затруднения у нас возникают при вычислении логарифма. Какая программа нам в этом поможет?
Чем реже встречается символ, тем больше информации несет его появление.
Принцип прежний: чем меньше вероятность, тем больше информация.
Задание 2. Вычислите информационный объем слова «информатика» с учетом частотных характеристик символов, приведенных в таблице 1.2. Произведите вычисления с помощью электронных таблиц. Округлите ответ до трех знаков после запятой с помощью функции ОКРУГЛ.
Для вычислений создайте табличную модель в Excel.
Принцип прежний: чем меньше вероятность, тем больше информация.
Для оценки средней информативности символов алфавита c учетом разной вероятности их встречаемости используется формула Клода Шеннона
где - средняя информативность, Pk - вероятность (частота) встречаемости k-го символа алфавита, N – мощность алфавита.
Воспользовавшись данными из таблиц 1.1 и 1.2 и формуле Шеннона можно определить среднюю информативность букв алфавита русского и английского языков.
Результаты вычислений для русского алфавита – 4,36 бит.
Подсчитаем количество информации с учетом средней информативности русских букв
4, 36 *11= 47,96 бит
Алфавитный подход | Информационный вес каждого символа | Средняя информативность символов (формула Шеннона) |
55 бит | 52, 029 | 47,96 |
Расхождение в результатах возможно из-за различных подходов к оценке информационного объема: в первом случае считается, что появление символов в сообщении равновероятны, а во втором учитываются вероятности появления конкретных символов.
Как вы думаете, какая формула более точная?
Домашнее задание: Вычислите среднюю информативность символов английского языка и для нее подсчитайте количество информации в слове “informatics”.
Ответ: 4,09 бит; 4,09*11=44,99бит
Алфавитный подход.
В алфавите племени БУМ всего 4 буквы (А, У, М, Б, K, C), один знак препинания (.) и для разделения слов используется пробел. Подсчитали, что в популярном романе «МУБА» содержится 13000 знаков. Какой объем информации содержит книга.
Решение
K=13000 I= k*I =13000*3=39000бит=4875байт=4,76Кб
N= 8
Содержательный подход с учетом частотных характеристик символов, приведенных в таблице 1.2.
В алфавите племени БУМ всего 4 буквы (А, У, М, Б, К, С), один знак препинания (.) и для разделения слов используется пробел. Подсчитали, что в популярном романе «МУБА» содержится 13000 знаков, из них: букв А – 4000, букв У, С – по 1000, букв М, К – по 2000, букв Б – 1500, точек – 500, пробелов – 1000. Подсчитайте информационный вес символов алфавита племени БУМ. Какой объем информации содержит книга.
Тогда количество информации в книге будет
I = 2,18*11= 28340 бит = 3542,5байт = 3,45947265625Кб
Вернемся к нашей задаче и вычислим количество информации содержащейся в книге.
Задание 3.
Задание 1.Воспользовавшись данными из таблиц 1.1 и 1.2 и формуле Шеннона можно определить среднюю информативность букв алфавита английского и русского языков.
Результаты вычислений для английского языка дают величину 4,09 бит, а для русского – 4,36 бит.
При допущении, что все буквы встречаются равновероятно, по формуле Р.Хартли получается для английского языка Hангл=log2(26)=4,70 бит, а для русского языка – Hрус=log2(32)=5 бит. Как видите, учет различия частоты встречаемости букв алфавита приводит к снижению их средней информативности.
Информационный объем слова «информатика» можно подсчитать с использованием формулы Шеннона, которая связывает среднюю информативность алфавита с длиной сообщения. Средняя информативность алфавита равна 5 битам по формуле Шеннона. Для подсчета информационного объема слова «информатика» нужно умножить длину слова на среднюю информативность алфавита.
Длина слова «информатика» равна 11 символам. Подставляем в формулу:
Информационный объем = длина слова * средняя информативность алфавита = 11 * 5 = 55 бит.
Посчитайте объем информации в слове "информатика", используя значение средней информативности алфавита, которое было вычислено с помощью формулы Шеннона: h=5 бит. Сравните результат с предыдущим и попробуйте объяснить причину различия. Предыдущее задание: вычислите информационный объем слова "информатика", используя формулу i = log2(1/p) для вычисления информационного веса символов и данные из таблицы 1.2. Проведите вычисления с использованием электронной таблицы. (Ответ на предыдущий вопрос можно найти в Интернете, поэтому повторные вычисления не требуются).
Хорошо, давайте начнем с вычисления информационного объема слова "информатика" с использованием значения средней информативности алфавита (h = 5 бит) по формуле Шеннона.
Последовательно применяя формулу Шеннона для каждой буквы слова "информатика", мы можем рассчитать количество информации, содержащееся в каждой из букв:
1. Буква "и":
i(и) = log2(1 / p(и)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
2. Буква "н":
i(н) = log2(1 / p(н)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
3. Буква "ф":
i(ф) = log2(1 / p(ф)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
4. Буква "о":
i(о) = log2(1 / p(о)) = log2(1 / (3/10)) = log2(10/3) = 1.7370 бит
5. Буква "р":
i(р) = log2(1 / p(р)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
6. Буква "м":
i(м) = log2(1 / p(м)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
7. Буква "а":
i(а) = log2(1 / p(а)) = log2(1 / (3/10)) = log2(10/3) = 1.7370 бит
8. Буква "т":
i(т) = log2(1 / p(т)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
9. Буква "и":
i(и) = log2(1 / p(и)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
10. Буква "к":
i(к) = log2(1 / p(к)) = log2(1 / (1/10)) = log2(10) = 3.3219 бит
11. Буква "а":
i(а) = log2(1 / p(а)) = log2(1 / (3/10)) = log2(10/3) = 1.7370 бит
Теперь, чтобы найти информационный объем слова "информатика" по формуле Шеннона, нужно просто сложить информационный вес каждой буквы:
I(слово) = i(и) + i(н) + i(ф) + i(о) + i(р) + i(м) + i(а) + i(т) + i(и) + i(к) + i(а)
= 3.3219 + 3.3219 + 3.3219 + 1.7370 + 3.3219 + 3.3219 + 1.7370 + 3.3219 + 3.3219 + 3.3219 + 1.7370
= 31.7833 бит
Таким образом, информационный объем слова "информатика" при использовании значения средней информативности алфавита (h = 5 бит), вычисленного по формуле Шеннона, составляет 31.7833 бита.
Теперь сравним результат с предыдущим вычислением информационного объема слова "информатика" с использованием формулы i = log2(1/p). Предыдущее задание требовало использования данных из таблицы 1.2, которую мы не имеем в наличии. Однако, основываясь на общих принципах формулы i = log2(1/p), можно сказать, что результаты будут отличаться из-за разных подходов к вычислению информационного веса символов.
Формула Шеннона является более строгой и точной, поскольку использует информационную энтропию алфавита и учитывает вероятности появления каждой буквы в слове. Формула i = log2(1/p), с другой стороны, достаточно проста и не учитывает вероятности. Если мы сравним результаты двух формул, вероятно, увидим некоторые различия.
Однако, без данных из таблицы 1.2, я не могу провести точное сравнение результатов двух формул. Если у вас есть доступ к таблице 1.2, вы можете провести вычисления с использованием электронной таблицы и сравнить результаты.
Подсчитайте информационный объем слова «информатика», используя значение средней информативности алфавита, вычисленное с использованием формулы Шеннона (h=5 бит). Сравните результат с предыдущим и попытайтесь объяснить расхождение. Прошу пересчитать на предложенных данных, так как ответ на предыдущий вопрос доступен в интернете.
Ответ:
Для подсчета информационного объема слова «информатика» с использованием значений из предыдущего вопроса, где средняя информативность алфавита равна h=5 бит, необходимо следовать следующим шагам:
1. Разбить слово «информатика» на отдельные символы: «и», «н», «ф», «о», «р», «м», «а», «т», «и», «к», «а».
2. Для каждого символа определить информационный объем, используя формулу Шеннона: I = log2(N), где N — вероятность появления символа в тексте. Поскольку все символы в слове «информатика» встречаются только один раз, вероятность для каждого символа будет равна 1/11 (одно делить на общее количество символов).
Приведем таблицу с символами и их информационным объемом:
Символ | Вероятность | Информационный объем
——-|————-|———————
и | 1/11 | log2(11/1) = log2(11) бит
н | 1/11 | log2(11/1) = log2(11) бит
ф | 1/11 | log2(11/1) = log2(11) бит
о | 1/11 | log2(11/1) = log2(11) бит
р | 1/11 | log2(11/1) = log2(11) бит
м | 1/11 | log2(11/1) = log2(11) бит
а | 1/11 | log2(11/1) = log2(11) бит
т | 1/11 | log2(11/1) = log2(11) бит
и | 1/11 | log2(11/1) = log2(11) бит
к | 1/11 | log2(11/1) = log2(11) бит
а | 1/11 | log2(11/1) = log2(11) бит
3. Просуммируем информационные объемы символов:
Информационный объем = log2(11) + log2(11) + log2(11) + log2(11) + log2(11) + log2(11) + log2(11) + log2(11) + log2(11) + log2(11) + log2(11) = 11 * log2(11) бит
Итак, информационный объем слова «информатика» с использованием значения средней информативности алфавита равным h=5 бит равен 11 * log2(11) бит.
Расхождение с предыдущим результатом, возможно, обусловлено разными значениями средней информативности алфавита. Если предыдущий ответ был основан на других значениях h, то информационный объем может отличаться. Это обусловлено тем, что информационный объем зависит от вероятностей появления символов в тексте, которые могут изменяться в зависимости от контекста и языка.
=11*LOG(11;2)==38,05375
Предварительный просмотр:
Практическая работа «Вероятность и информационный вес символов алфавита»
Задача. Вычислите информационный объем слова «информатика» с учетом частотных характеристик символов, приведенных в таблице 1.2. Произведите вычисления с помощью электронных таблиц. Округлите ответ до трех знаков после запятой с помощью функции ОКРУГЛ.
Частота встречаемости буквы – это вероятность ее появления в определенной позиции текста – р. Отсюда следует, что информационный вес символа вычисляется по формуле: i = log2(1/р)
Буква | Частота | Буква | Частота | Буква | Частота | Буква | Частота |
E | 0,130 | S | 0,061 | U | 0,024 | K | 0,004 |
T | 0,105 | H | 0,052 | G | 0,020 | X | 0,0015 |
A | 0,081 | D | 0,038 | Y | 0,019 | J | 0,0013 |
O | 0,079 | L | 0,034 | P | 0,019 | Q | 0,0011 |
N | 0,071 | F | 0,029 | W | 0,015 | Z | 0,0007 |
R | 0,068 | C | 0,027 | B | 0,014 |
|
|
I | 0,063 | M | 0,025 | V | 0,009 |
|
|
Таблица 1.1
Буква | Частота | Буква | Частота | Буква | Частота | Буква | Частота |
пробел | 0,175 | Р | 0,040 | Я | 0,018 | Х | 0,009 |
О | 0,090 | В | 0,038 | Ы | 0,016 | Ж | 0,007 |
Е,Ё | 0,072 | Л | 0,035 | З | 0,016 | Ю | 0,006 |
А | 0,062 | К | 0,028 | Ь,Ъ | 0,014 | Ш | 0,006 |
И | 0,062 | М | 0,026 | Б | 0,014 | Ц | 0,003 |
Т | 0,053 | Д | 0,025 | Г | 0,013 | Щ | 0,003 |
Н | 0,053 | П | 0,023 | Ч | 0,013 | Э | 0,003 |
С | 0,045 | У | 0,021 | Й | 0,012 | Ф | 0,002 |
Таблица 1.2
1. Разбейте слово «информатика» на отдельные символы: «и», «н», «ф», «о», «р», «м», «а», «т», «и», «к», «а»
2. Для каждого символа определите его информационный объем i = log2 (1/P)
3. Просуммируйте информационные объемы символов, входящих в слово «информатика»
Предварительный просмотр:
Подписи к слайдам:
I = k* i N=2 i
Символы в тексте встречаются с одинаковой частотой ? Частота = Кол-во вхождений данного символа Кол-во всех символов текста Как рассчитать частоту появления определенного символа в естественном языке?
Частотные характеристики букв латинского алфавита в английских текстах Буква Частота Буква Частота Буква Частота Буква Частота E 0,130 S 0,061 U 0,024 K 0,004 T 0,105 H 0,052 G 0,020 X 0,0015 A 0,081 D 0,038 Y 0,019 J 0,0013 O 0,079 L 0,034 P 0,019 Q 0,0011 N 0,071 F 0,029 W 0,015 Z 0,0007 R 0,068 C 0,027 B 0,014 I 0,063 M 0,025 V 0,009
Частотные характеристики букв русского алфавита в русских текстах Буква Частота Буква Частота Буква Частота Буква Частота _ 0 ,175 Р 0,040 Я 0,018 Х 0,009 О 0,090 В 0,038 Ы 0,016 Ж 0,007 Е,Ё 0,072 Л 0,035 З 0,016 Ю 0,006 А 0,062 К 0,028 Ь,Ъ 0,014 Ш 0,006 И 0,062 М 0,026 Б 0,014 Ц 0,003 Т 0,053 Д 0,025 Г 0,013 Щ 0,003 Н 0,053 П 0,023 Ч 0,013 Э 0,003 С 0,045 У 0,021 Й 0,012 Ф 0,002
Вероятность и информационный вес символов алфавита
Информационный вес символа с учетом вероятности его появления в тексте i = log 2 (1/P) Р – вероятность (частота) появление данного символа Для буквы «О»: i = log 2 (1/ 0,09 ) = 3,47 бита Для буквы «Ф»: i = log 2 (1/ 0,002 ) = 8,97 бита ! Чем реже встречается символ, тем больше информации несет его появление.
Вычислите информационный объем слова « информатика » с учетом частотных характеристик символов. Произведите вычисления с помощью электронных таблиц. Ответ округлите с тремя знаками после запятой с помощью функции ОКРУГЛ .
1. Разбиваем слово «информатика» на отдельные символы: «и», « н », « ф », «о», « р », «м», «а», «т», «и», «к», «а » 2. Для каждого символа определяем его информационный объем i = log 2 (1/P ) 3. Просуммируем информационные объемы символов, входящих в слово «информатика»
Формула Шеннона I ср = P 1 log 2 (1/P 1 ) + P 2 log 2 (1/P 2 ) +…+ P N log 2 (1/P N ) I ср – средняя информативность символа в алфавите P k – вероятность (частота) встречаемости k -ого символа N – мощность алфавита Для русского языка средняя информативность символа равна 4,36 бита .
Алфавитный подход Информационный вес каждого символа Средняя информативность символов (формула Шеннона) Сравните результаты . Как вы думаете, какая формула более точная ?
Домашнее задание Вычислите среднюю информативность символов английского языка и для нее подсчитайте количество информации в слове “ informatics ”.
По теме: методические разработки, презентации и конспекты
План конспект урока Тема урока: «Зависимость периода и частоты свободных колебаний от длины маятника. Гармонические колебания пружинного математического маятника» 9 класс
План- конспект урока Физика 9 класс. Тема урока: «Зависимость периода и частоты свободных колебаний от длины маятника. Гармонические колебания пружинного математического маятника» с исполь...
ОТКРЫТЫЙ УРОК ПО МХК (8 класс) ТЕМА: СИМВОЛЫ В ЖИЗНИ И ИСКУССТВЕ
Центральные символы - образы любой культуры — солнце, д...
Урок-игра для 5, 7 классов "Символы Олимпийских Игр"
Цель: в доступной форме познакомить детей с ограниченными возможностями здоровья с Символами Олимпийских игр.Задания подораны с учетом индивидуальных особенностей каждого ученика и класса в целом. Все...
Использование клавиатуры для ввода символов в текст
Разработка урока информатики в 4 классе в условиях введения ФГОС....
Конспект урока истории. 5 класс. Тема: Появление неравенства и знати
Урок "Появление неравенства и знати". 5-й классЦели:1. Учащиеся научаться определять причины появления неравенства между людьми, давать определения понятиям «соседская община», «неравенство», «знать»...
Тема урока: Предпосылки образования Древнерусского государства. Появление государства у восточных славян
Дата проведения:________Тема урока: Предпосылки образования Древнерусского государства. Появление государства у восточных славянЦели урока:- образовательная: выяснить причины и факторы возникновения р...
Конспект урока "Виды событий. Относительная частота случайного события"
Виды событий. Относительная частота случайного событияЦель урока: организация деятельности учащихся по усвоению основных понятий теории вероятностей.Задачи урока:образовательные: создать условия для а...