UTF-8
UTF-8 – гибкий стандарт кодировки, основанный на Unicode. Он позволяет передавать символы в сжатом формате и при этом сохранять обратную совместимость. Каждому знаку соответствует от одного до четырёх байтов. Благодаря этому подходу система поддерживает множество алфавитов и языков.
Использование в HTML
Чтобы страница корректно отображала текст, в секцию <head> добавляют строку:
<meta charset=”utf-8″>
Эта запись сообщает браузеру, что документ работает с выбранной кодировкой. Если параметр не указать, символы вне базового набора могут отображаться некорректно.
Как устроено кодирование
Каждый код символа превращается в последовательность длиной от 1 до 4 байтов.
- Диапазон 0–127 занимает один байт.
- Более высокие значения используют 2, 3 или 4.
- Начальный бит указывает длину цепочки, а последующие байты содержат данные.
Такой принцип дает возможность считывать символы без двусмысленностей и конфликтов.
Пример
<!DOCTYPE html>
<html lang=”en”>
<head>
<meta charset=”UTF-8″>
<title>Example</title>
</head>
<body>
<p>Some English text</p>
</body>
</html>
Эта конструкция обеспечивает одинаковое восприятие текста в разных браузерах. Унифицированный подход избавляет от проблем с устаревшими кодировками и повышает надёжность передачи данных.