Учебный проект по информатике "Кодирование информации". Представляя информацию, нужно ответить на главный вопрос: Зачем человеку кодирование информации?
Целью данного учебного проекта является изучение теоретических аспектов применения систем кодирования информации.
Вложение | Размер |
---|---|
uchebnyy_proekt_gresov_sasha.docx | 54.76 КБ |
tezisy_gresov_a..docx | 16.79 КБ |
zashchita_proekta.ppt | 2.14 МБ |
Основная часть
Муниципальное бюджетное образовательное учреждение Белоярского района
«Общеобразовательная средняя (полная) школа п. Сосновка»
Проект в номинации № 2 «Математика, информатика, физика,
астрономия»
Тема проекта:
«Кодирование информации»
Автор проекта:
Гресов Александр Витальевич
Класс 7
Научный руководитель проекта:
Федека Лилия Михайловна
МОСШ п. Сосновка
Учитель физики и информатики
п. Сосновка
2012 год
Оглавление
Кодирование символьной (текстовой) информации
Кодирование числовой информации
Кодирование графической информации
Кодирование звуковой информации
Юникод и традиционные кодировки
Человек воспринимает окружающий мир (получает информацию) с помощью органов чувств (зрение, слух, обоняние, осязание, вкус). Для того чтобы правильно ориентироваться в мире, он запоминает полученные сведения (хранит информацию). В процессе достижения каких-либо целей человек принимает решения (обрабатывает информацию). В процессе общения с другими людьми человек передает и принимает информацию. Человек живет в мире информации.
Море информации, которое получает человек, необходимо как-то запомнить или сохранить. На помощь приходит персональный компьютер. Никто не задумывается о том, как информация помещается на маленьких и удобных флэш-картах, и, конечно же, на жестком диске компьютера. Поэтому мы считаем данную тему, для нашего современного мира – мира информационных технологий, актуальной.
В этом проекте представляются способы кодирования информации, я не мог не осветить новый способ кодирования текстовой информации с помощью «Юникод». При этом слово «кодирование» понимается не в узком смысле – кодирование как способ сделать сообщение непонятным для всех, кто не владеет ключом кода, а в широком – как представление информации в виде сообщения на каком-либо языке.
Представляя эту информацию, нужно ответить на главный вопрос:
Зачем человеку кодирование информации?
Целью данного учебного проекта является изучение теоретических аспектов применения систем кодирования информации.
Объект: процесс кодирования информации.
Предмет: кодирование информации с помощью кодировочных таблиц.
Задачи:
Код – это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий. Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.
Обычно каждый образ при кодировании представляется отдельным знаком.
Знак – это элемент конечного множества отличных друг от друга элементов.
В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.
Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.
На компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.
Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Поэтому компьютеры обычно работают в двоичной системе счисления, и устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществлять в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.
Основная операция, производимая над отдельными символами текста – сравнение символов.
При сравнении символов наиболее важными аспектами являются уникальность кода для каждого символа и длина этого кода, а сам выбор принципа кодирования практически не имеет значения.
Для кодирования текстов используются различные таблицы перекодировки. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.
Таблица перекодировки – таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.
Наиболее популярные таблицы перекодировки: КОИ-8, ASCII, CP1251, Unicode.
Исторически сложилось, что в качестве длины кода для кодирования символов было выбрано 8 бит или 1 байт. Поэтому чаще всего одному символу текста, хранимому в компьютере, соответствует один байт памяти.
Различных комбинаций из 0 и 1 при длине кода 8 бит может быть 28 = 256, поэтому с помощью одной таблицы перекодировки можно закодировать не более 256 символов. При длине кода в 2 байта (16 бит) можно закодировать 65536 символов.
Единицы измерения информации:
1 байт = 8 бит
1 Кбайт = 1024 байта
1 Мбайт = 1024 Кбайта
1 Гбайт = 1024 Мбайта
1 Тбайт = 1024 Гбайта
Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.
Основным отображением кодирования символов является код ASCII – American Standard Code for Information Interchange – американский стандартный код обмена информацией, который представляет из себя таблицу 16 на 16, где символы закодированы в шестнадцатеричной системе счисления.
Сходство в кодировании числовой и текстовой информации состоит в следующем: чтобы можно было сравнивать данные этого типа, у разных чисел (как и у разных символов) должен быть различный код. Основное отличие числовых данных от символьных заключается в том, что над числами кроме операции сравнения производятся разнообразные математические операции: сложение, умножение, извлечение корня, и пр. Правила выполнения этих операций в математике подробно разработаны для чисел, представленных в позиционной системе счисления.
Основной системой счисления для представления чисел в компьютере является двоичная позиционная система счисления. Числа в компьютере представлены в виде последовательностей 0 и 1 или битов.
Важным этапом кодирования графического изображения является разбиение его на дискретные элементы (дискретизация).
Основными способами представления графики для ее хранения и обработки с помощью компьютера являются растровые и векторные изображения.
Векторное изображение представляет собой графический объект, состоящий из элементарных геометрических фигур (чаще всего отрезков и дуг). Положение этих элементарных отрезков определяется координатами точек и величиной радиуса. Для каждой линии указывается двоичные коды типа линии (сплошная, пунктирная, штрихпунктирная), толщины и цвета.
Растровое изображение представляет собой совокупность точек (пикселей), полученных в результате дискретизации изображения в соответствии с матричным принципом.
Матричный принцип кодирования графических изображений заключается в том, что изображение разбивается на заданное количество строк и столбцов. Затем каждый элемент полученной сетки кодируется по выбранному правилу.
Pixel (picture element – элемент рисунка) – минимальная единица изображения, цвет и яркость которой можно задать независимо от остального изображения.
В соответствии с матричным принципом строятся изображения, выводимые на принтер, отображаемые на экране дисплея, получаемые с помощью сканера.
Качество изображения будет тем выше, чем «плотнее» расположены пиксели, то есть чем больше разрешающая способность устройства, и чем точнее закодирован цвет каждого из них.
Для черно-белого изображения код цвета каждого пикселя задается одним битом.
Если рисунок цветной, то для каждой точки задается двоичный код ее цвета.
Цвета кодируются в двоичном коде: при использовании 16-цветного рисунка кодирование каждого пикселя осуществляется 4 битами (16=24), а если есть возможность использовать 16 бит (2 байта) для кодирования цвета одного пикселя, то можно передать 216 = 65536 различных цветов. Использование трех байтов (24 битов) для кодирования цвета одной точки позволяет отразить 16777216 (или около 17 миллионов) различных оттенков цвета – так называемый режим «истинного цвета» (True Color). Заметим, что это используемые в настоящее время, но далеко не предельные возможности современных компьютеров.
Звук – это колебания воздуха. По своей природе звук является непрерывным сигналом. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), мы увидим плавно изменяющееся с течением времени напряжение.
Для компьютерной обработки аналоговый сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел, а для этого его необходимо дискретизировать и оцифровать.
Можно поступить следующим образом: измерять амплитуду сигнала через равные промежутки времени и записывать полученные числовые значения в память компьютера. Современные звуковые карты обеспечивают 16-битное кодирование звука. При каждой выборке значению амплитуды звукового сигнала присваивается 16-битный код.
Количество выборок в секунду может быть в диапазоне от 8000 до 48000, т.е. частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц – качеству звучания аудио-CD.
Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных. Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) и семейство кодировок (англ. UTF, Unicode transformation format).
Графические символы – это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования.
Графические символы включают в себя следующие группы:
Юникод – это система для линейного представления текста. Символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character).
Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, глаголицу, греческую, грузинскую, деванагари, еврейскую, кириллицу, китайскую (китайские иероглифы активно используются в японском языке, а также достаточно редко в корейском), коптскую, кхмерскую, латинскую, тамильскую, корейскую (хангыль), чероки, эфиопскую, японскую (которая включает в себя кроме китайских иероглифов ещё и слоговую азбуку), и другие.
В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.
С академическими целями добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.
Однако в Юникод принципиально не включаются логотипы компаний и продуктов, хотя они и встречаются в шрифтах (например, логотип Apple в кодировке MacRoman (0xF0) или логотип Windows в шрифте Wingdings (0xFF)). В юникодовских шрифтах логотипы должны размещаться только в области пользовательских символов.
Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода. Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод.
Кроме того, многие форматы данных позволяют вставлять любые символы Юникода, даже если документ записан в старой 8-битной кодировке.
В Юникоде английское «a» и польское «a» – один и тот же символ. Точно так же одним символом (но отличающимся от «a» латинского) считаются русское «а» и сербское «а». Такой принцип кодирования не универсален; по-видимому, решения «на все случаи жизни» вообще не может существовать.
Тексты на китайском, корейском и японском языке имеют традиционное написание сверху вниз, начиная с правого верхнего угла. Переключение горизонтального и вертикального написания для этих языков не предусмотрено в Юникоде – это должно осуществляться средствами языков разметки или внутренними механизмами текстовых процессоров.
Юникод предусматривает возможность разных начертаний одного и того же символа в зависимости от языка. Так, китайские иероглифы могут иметь разные начертания в китайском, японском (кандзи) и корейском (ханчча), но при этом в Юникоде обозначаться одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды. Часто возникают накладки, когда, например, японский текст выглядит «по-китайски». Аналогично, русский и сербский языки используют разное начертание курсивных букв п и т (в сербском они выглядят как и и ш). Поэтому нужно следить, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку.
Перевод из строчных букв в заглавные тоже зависит от языка. Например: в турецком существуют буквы İi и Iı – таким образом, турецкие правила изменения регистра конфликтуют с английскими, которые предписывают «i» переводить в «I». Подобные проблемы есть и в других языках – например, в канадском диалекте французского языка регистр переводится немного не так, как во Франции.
Даже с арабскими цифрами есть определённые типографские тонкости: цифры бывают «прописными» и «строчными», пропорциональными и моноширинными – для Юникода разницы между ними нет. Подобные нюансы остаются за программным обеспечением.
Некоторые недостатки связаны не с самим Юникодом, а с возможностями обработчиков текста.
Файлы с текстом в Юникоде занимают больше места в памяти, так как один символ кодируется не одним байтом, как в различных национальных кодировках, а последовательностью байтов (исключение составляет UTF-8 для языков, алфавит которых укладывается в ASCII, а также наличие в тексте символов двух и более языков, алфавит которых не укладывается в ASCII). Файл шрифта, необходимый для отображения всех символов таблицы Юникод, занимает сравнительно много места в памяти и требует бо́льших вычислительных ресурсов. С увеличением мощности компьютерных систем и удешевлением памяти и дискового пространства эта проблема становится всё менее существенной; тем не менее, она остаётся и в ближайшем будущем останется актуальной для портативных устройств, например, для мобильного телефона.
Хотя поддержка Юникода реализована в наиболее распространённых операционных системах, до сих пор не всё прикладное программное обеспечение поддерживает корректную работу с ним. В частности, не всегда обрабатываются метки BOM и плохо поддерживаются диакритические символы. Проблема является временной и есть следствие сравнительной новизны стандартов Юникода (в сравнении с однобайтовыми национальными кодировками).
Производительность некоторых программ снижается при использовании Юникода вместо однобайтовых кодировок.
Наконец, некоторые редкие системы письма всё ещё не представлены должным образом в Юникоде. Изображение «длинных» надстрочных символов, простирающихся над несколькими буквами, как, например, в церковнославянском языке, пока не реализовано.
Цель моей работы достигнута: я познакомился со всеми кодировочными таблицами, которые существуют для русскоязычной раскладки клавиатуры. Выяснил, что текст, набранный в одной кодировке, не может быть прочитан с помощью другой кодировки.
Познакомился с универсальной кодировкой информации Unicode. Этот способ кодирования открывает широкие возможности для хранения информации.
Узнал различные способы кодирования различных видов информации: текстовой, числовой, звуковой и т.д.
Номинация № 2 «Математика, информатика, физика, астрономия»
Тема проекта: «Кодирование информации»
Автор проекта: Гресов Александр Витальевич (класс 7)
Научный руководитель проекта: Федека Лилия Михайловна
Тезисы
Человек воспринимает окружающий мир (получает информацию) с помощью органов чувств (зрение, слух, обоняние, осязание, вкус). Для того чтобы правильно ориентироваться в мире, он запоминает полученные сведения (хранит информацию). В процессе достижения каких-либо целей человек принимает решения (обрабатывает информацию). В процессе общения с другими людьми человек передает и принимает информацию. Человек живет в мире информации.
Море информации, которое получает человек, необходимо как-то запомнить или сохранить. На помощь приходит персональный компьютер. Никто не задумывается о том, как информация помещается на маленьких и удобных флэш-картах, и, конечно же, на жестком диске компьютера. Поэтому мы считаем данную тему, для нашего современного мира – мира информационных технологий, актуальной.
Представляя эту информацию, нужно ответить на главный вопрос:
Зачем человеку кодирование информации?
Целью данного учебного проекта является изучение теоретических аспектов применения систем кодирования информации.
Объект: процесс кодирования информации.
Предмет: кодирование информации с помощью кодировочных таблиц.
Задачи:
В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.
Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.
Для кодирования текстов используются различные таблицы перекодировки. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.
Таблица перекодировки – таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.
Наиболее популярные таблицы перекодировки: КОИ-8, ASCII, CP1251, Unicode.
Сходство в кодировании числовой и текстовой информации состоит в следующем: чтобы можно было сравнивать данные этого типа, у разных чисел (как и у разных символов) должен быть различный код.
Важным этапом кодирования графического изображения является разбиение его на дискретные элементы.
Для черно-белого изображения код цвета каждого пикселя задается одним битом.
Если рисунок цветной, то для каждой точки задается двоичный код ее цвета.
Для компьютерной обработки аналоговый сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел, а для этого его необходимо дискретизировать и оцифровать.
Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных. Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) и семейство кодировок (англ. UTF, Unicode transformation format).
Юникод включает практически все современные письменности.
В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.
С академическими целями добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.
Цель моей работы достигнута: я познакомился со всеми кодировочными таблицами, которые существуют для русскоязычной раскладки клавиатуры. Выяснил, что текст, набранный в одной кодировке, не может быть прочитан с помощью другой кодировки.
Познакомился с универсальной кодировкой информации Unicode. Этот способ кодирования открывает широкие возможности для хранения информации.
Узнал различные способы кодирования различных видов информации: текстовой, числовой, звуковой и т.д.
Филимоновская игрушка
Афонькин С. Ю. Приключения в капле воды
Почта
Рисуем белые грибы пастелью
Рисуем кактусы акварелью