Кодирование с помощью алфавита

Кодирование с помощью алфавита

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом.

Число символов в алфавите – это его мощность.

Формула определения количества информации: N = 2 b ,

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символ

0 — 31

00000000 — 00011111

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 — 127

00100000 — 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 — пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.

128 — 255

10000000 — 11111111

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII

Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Читайте также:  Корвет 100ум 048с характеристики

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Одним из способов кодирования является кодирование с помощью знаков.
Допустим, имеется некоторая система знаков Z=, состоящая из 3-х знаков.
Если объекты кодируются 1 символом, то объектов будет всего 3.
Если все сообщения двухбуквенные, тогда их можно составить 9.

AA AB AC BA BB BC CA CB CC

Если попытаться построить трёхбуквенные слова, то их получится 27.

Если продолжать эту процедуру, то получится, что при увеличении длины кода (количества знаков в коде) на 1, число кодов увеличивается в 3 раза (таково количество знаков в нашей системе).

Длина кода (знаков) Количество кодов Формула связи
31 = 3
32 = 9
33 = 27
34 = 81

Код — это полная совокупность условных символов, которую применяют для кодирования сообщений. Число различных символов в коде называется основанием кода.

Код — представление информации в виде символов, знаков, свод законов или кодекс.

Символ — знак, несущий некий смысл.

Алфавит — множество символов, используемых для хранения или передачи информации. Количество букв в алфавите называют мощностью алфавита.

Алфавитов существует довольно много:

  • Кириллица <А, Б, В. Я>;
  • Латиница ;
  • Арабские цифры <0, 1, 2, ..9>;
  • Набор знаков азбуки Бройля для слепых;
  • Набор знаков глухонемых;
  • Азбука Морзе;
  • Набор математических знаков < ..>.

k знаками можно закодировать любое число сообщений.

Длина кода – количество знаков, которое используется для представления одного сообщения. В повседневной жизни чаще встречаются коды переменной длины, например, в русском алфавите 33 буквы, а слова могут быть длиной 1, 2, ..буквы. Кодирование информации может быть самое разное: поднят или опущен флаг на корабле, есть сигнал маяка или он отсутствует, зеленая + красная ракеты ? начало боевых действий и т.п. Существует кодирование информации и более сложной природы: рисунок, речь, песня, танец и т.п. Информацию несут нам наши органы чувств.

Как правило, используются коды постоянной длины. Исключением является код Морзе. Это пример троичного кодас набором знаков «точка», «тире», «пауза». Пауза необходима в качестве разделителя между буквами и словами, т.к. длина кода непостоянна. В кодах с постоянной длиной закодированные символы могут следовать друг за другом непосредственно, без всяких разделителей. Местоположение этих символов устанавливается посредством отсчета. Исходя из этого, сообщение может быть раскодировано всегда однозначно.

5. Задачи безопасности и угрозы. Злоумышленники и их классификация.

Информационная безопасность — защищенность информации и поддерживающей ее инфраструктуры от любых случайных или злонамеренных воздействий, результатом которых может явиться нанесение ущерба самой информации, ее владельцам или поддерживающей инфраструктуре.

Задачи информационной безопасности сводятся к минимизации ущерба, а также к прогнозированию и предотвращению таких воздействий.

Действия, которые могут нанести ущерб информационной безопасности организации, можно разделить на несколько категорий.

1. Действия, осуществляемые авторизованными пользователями:

  • целенаправленная кража или уничтожение данных на рабочей станции или сервере;
  • повреждение данных пользователем в результате неосторожных действий.

2. Электронные методы воздействия, осуществляемые хакерами:

  • несанкционированное проникновение в компьютерные сети;
  • DOS-атаки.

3. Компьютерные вирусы и другие вредоносные программы.

5. Естественные угрозы

На информационную безопасность компании могут влиять разнообразные внешние факторы: причиной потери данных может стать неправильное хранение, кража компьютеров и носителей, форс-мажорные обстоятельства и т. д.

Злоумышленник –незаконый пользователь, который незаконно владеет какой-либо информацией в своих целях.

Читайте также:  Какие мужские носки лучше покупать отзывы

Злоумышленники бывают пассивные (хотят только посмотреть информацию) и активные (хотят подменить, отредактировать информацию и т.п., вмешаться в инф процесс).

Всех злоумышленников можно поделить на 4 группы (по степени опасности):

1. Случайные любопытные пользователи.

2. Профессионалы каких-либо систем (сист. Администратор имеет доступ к какой-либо информации).

3. Пользователи, которые совершают решительные попытки личного обогощения или другие корыстные цели.

4. Профессионалы, которые занимаются коммерческим и военным шпионажем.

6. Основные пути утечки информации. Проблема потери данных.

Основные пути утечки информации:

  • набор программ, используемые во время работы и интенсивность обращения к этим программам;
  • предысторию открытия документов за последнее время;
  • приобретенное ПО является легальным или пиратские копии программ;
  • вашу переписку по электронной почте, даже те сообщения, которые были удалены после прочтения;
  • всю предысторию путешествий по интернету;
  • файлы различных документов, с которыми работаете в текущий момент, в том числе, содержащие самую конфиденциальную информацию – текущие проекты, финансовые отчеты;
  • целые документы и их фрагменты, которые вы давным-давно удалили с помощью проводника Windows.
  • пароли доступа к ресурсам Интернета, в том числе, к серверу провайдера Интернета, к Вашим счетам в банках и магазинах Интернета, или к различным платежным системам ( WebMoney, CyberCash).
  • номера кредитных карточек, используемых для онлайновых покупок.
  • обмен пользователями гибкими, оптическими и жесткими дисками.

Основные опасности, подстерегающие пользователя Интернет:

– Провайдеры (модемного) Интернета устанавливают на входных телефонных линиях своего сервера устройства автоматического определения телефонных номеров (АОН).

–Регистрация на Web-сайтах.

– Сетевой перехват. Если компьютер подсоединен к локальной сети, то его пользователям угрожает потеря конфиденциальности передаваемой по сети информации

– Прочие источники проблем. К таковым можно отнести ICQ, IRC и Чат-серверы.

–Интернет-телефония. Для защиты от прослушивания существует всего один метод – шифрование (скремблирование). Skype – один из наиболее защищенных протоколов.

Угроза безопасности — возникновение такого явления или события, следствием которого могут быть негативные воздействия на информацию: нарушение физической целостности, логической структуры, несанкционированная модификация, несанкционированное получение, несанкционированное размножение.

К наиболее распространенным причинам случайной потери данных относятся:

1. Форс-мажорные обстоятельства: пожары, наводнения, землетрясения, войны, восстания, крысы, изгрызшие кабеля или внешние носители информации.

2. Аппаратные и программные ошибки: сбои центрального процессора, винчестера, нечитаемые диски или ленты, ошибки при передаче данных, ошибки в программах.

3. Человеческий фактор: неправильный ввод данных, неверно установленные диск или лента, запуск не той программы, потерянные диски, флэш-память, ленты и т. д.

7. Классификация вирусов и других вредных программ по степени опасности, по заражаемым объектам, по методу заражения, по методу скрытия своего наличия в системе, по среде создания.

Одной из наиболее распространенной и связанной непосредственно с программным обеспечением – это проблема компьютерных вирусов.

Разнообразие вирусов столь велико, что перечислить набор каких-то конкретных признаков, при выполнении которых программу можно назвать вирусом, просто невозможно – всегда найдется класс программ с данными признаками, но не являющимися при этом вирусами. Одно из наиболее распространенных определений следующее:

Компьютерные вирусы – это программы, которые умеют размножаться и внедрять свои копии в другие программы и объекты, используют информационную систему для решения своих задач, не связанных с задачами пользователя.

Все вредоносные программы можно классифицировать:

• по степени опасности;

• по заражаемым объектам;

• по методу заражения;

• по методу скрытия своего наличия в системе;

• по среде создания.

Вредоносные программы по степени опасности можно разделить:

• безобидные, т.е. не содержащие в себе никаких деструктивных функций и проявляющиеся только размножением;

• безопасные, проявляющиеся сообщениями, видеоэффектами и пр.;

• опасные, т.е. способные вызвать серьезные сбои в работе вычислительной системы, «засадить» пользователя в систему меню, выхода из которой нет или он сильно затруднен и т. д.;

• очень опасные, т. е. способные уничтожить информацию в файлах, системных областях, на логических дисках, вызвать физическое повреждение «железа», перезапись flash-памяти Bios и т.п.

Статьи к прочтению:

Чем опасно кодирование

Похожие статьи:

Согласно этому принципу, вся информация, поступающая в ЭВМ, кодируется с помощью двоичных сигналов. Принцип программного управления Из него следует, что…

II. Актуализация знаний. Вся информация, которою обработает компьютер, должна быть представлена двоичным кодом с помощью двух цифр – 0 и 1. Эти два…

Читайте также:  Картридер для microsd карт

Информация передается в виде сообщений. Дискретная информация записывается с помощью некоторого конечного набора знаков, которые будем называть буквами, не вкладывая в это слово привычного ограниченного значения (типа «русские буквы» или «латинские буквы»). Буква в данном расширенном понимании — любой из знаков, которые некоторым соглашением установлены для общения. Например, при привычной передаче сообщений на русском языке такими знаками будут русские буквы — прописные и строчные, знаки препинания, пробел; если в тексте есть числа — то и цифры. Вообще, буквой будем называть элемент некоторого конечного множества (набора) отличных друг от друга знаков. Множество знаков, в котором определен их порядок, назовем алфавитом (общеизвестен порядок знаков в русском алфавите: А, Б. Я).

Рассмотрим некоторые примеры алфавитов.

1, Алфавит прописных русских букв:

А Б В Г Д Е Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

2. Алфавит Морзе:

3. Алфавит клавиатурных символов ПЭВМ IBM (русифицированная клавиатура):

5. Алфавит арабских цифр:

6. Алфавит шестнадцатиричных цифр:

Этот пример, в частности, показывает, что знаки одного алфавита могут образовываться из знаков других алфавитов.

7. Алфавит двоичных цифр:0 1

Алфавит 7 является одним из примеров, так называемых, «двоичных» алфавитов, т.е. алфавитов, состоящих из двух знаков. Другими примерами являются двоичные алфавиты 8 и 9:

8. Двоичный алфавит «точка, «тире»:. _

9. Двоичный алфавит «плюс», «минус»: + —

10. Алфавит прописных латинских букв:

11. Алфавит римской системы счисления:

12. Алфавит языка блок-схем изображения алгоритмов:

КОДОВАЯ ТАБЛИЦА – это внутреннее представление символов клавиатуры. Во всем мире используют таблицу ASC II (Аmerican Standart Code for Iformation, Interchange). Для хранения 2-чного кода одного символа выделен 1 байт = 8 бит. Учитывая, что 1 бит = 0 или 1, то количество разных сочетаний в 1 байте = 2 8 = 256. Следовательно, с помощью 1 байта можно получить 256 различных двоичных комбинаций – символов, которые составляют таблицу ASC II.

Для сокращения записи используют 16-чную систему, состоящую из 16 символов: 10 цифр + A, B, C, D, E, F. Каждый символ в таблице ASC II кодируется с помощью 8 2-чных или двух 16-чных (1 разряд = 4 бит) чисел. Стандарт ASC II определяет первые 128 символов: цифры, буквы лат. алфавита (0-127). 2-я половина (128-255) – национальные символы, псевдографику и математические символы.

Символы. Это еще одна дискретная величина, поскольку компьютер оперирует с определенным ограниченным набором символов. Такой набор вполне можно назвать алфавитом машины, а в алфавите все символы имеют свои фиксированные позиции. Отсюда основная идея хранения символов в памяти ЭВМ состоит в замене каждого из них номером в алфавите, т.е. числом.

Примеры кодовых таблиц:

КОИ-7, КОИ-8 – кодирование русских букв и символов (семи-, восьми -битное кодирование)

1) #154 неразрывный пробел.

Рис.1 Кодировка КОИ8-Р

ASCII –American Standard Code for Information Interchange (американский стандарт кодов для обмена информацией) – это восьмиразрядная кодовая таблица, в ней закодировано 256 символов (127- стандартные коды символов английского языка, спецсимволы, цифры, а коды от 128 до 255 – национальный стандарт, алфавит языка, символы псевдографики, научные символы, коды от 0 до 32 отведены не символам, а функциональным клавишам).

Рис. 2 Международная кодировка ASCII

Unicode – стандарт, согласно которому для представления каждого символа используется 2 байта. (можно кодировать математические символы, русские, английские, греческие, и даже китайские). C его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов

СР1251 — наиболее распространенной в настоящее время является кодировка Microsoft Windows, ("CP" означает "Code Page", "кодовая страница").

1) #160 неразрывный пробел,

2) #173 мягкий перенос.

Рис. 3 Кодировка CP1251

СР866 — кодировка под MS DOS

1) #255 неразрывный пробел.

Рис. 4 Кодировка СР866

Мас – кодировка в ПК фирмы Apple, работающих под управлением операционной системы Mac OS.

#202 неразрывный пробел.

Рис. 5 Кодировка Mac

ISO 8859-5 -Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку.

Ссылка на основную публикацию
Клавиатура на айфоне фото
Восемь лет назад Стив Джобс анонсировал первый смартфон компании Apple. Одной из главных особенностей iPhone являлась возможность навигации по меню...
Какие комбинации клавиш необходимы для получения символов
Здравствуйте! Вы никогда не задумывались, сколько порой приходится тратить времени на обычные операции: выделить что-то мышкой, скопировать, затем вставить в...
Какие компрессоры стоят в холодильниках бирюса
С появлением широкого ассортимента импортного холодильного оборудования бытовая техника отечественного производства постепенно отошла на второй план. Однако ошибочно думать, что...
Клавиатура не отрывая пальца
Непрерывный ввод — это функция, которая позволяет вводить текст, проведя пальцем по клавиатуре. Это работает следующим образом. Допустим, вам нужно...
Adblock detector