UTF-8
UTF-8 – гнучкий стандарт кодування, що базується на Unicode. Він дозволяє передавати символи в стислому форматі і зберігати зворотну сумісність. Кожен знак відповідає від одного до чотирьох байтів. Завдяки цьому підходу система підтримує безліч алфавітів та мов.
Використання в HTML
Щоб сторінка коректно відображала текст, до секції <head> додають рядок:
<meta charset=”utf-8″>
Цей запис повідомляє браузеру, що документ працює з вибраним кодуванням. Якщо параметр не вказано, символи поза базовим набором можуть відображатися неправильно.
Як влаштовано кодування
Кожен код символу перетворюється на послідовність довжиною від 1 до 4 байтів.
- Діапазон 0-127 займає один байт.
- Вищі значення використовують 2, 3 чи 4.
- Початковий біт показує довжину ланцюжка, а наступні байти містять дані.
Такий принцип дає змогу зчитувати символи без двозначностей та конфліктів.
Приклад
<!DOCTYPE html>
<html lang=”en”>
<head>
<meta charset=”UTF-8″>
<title>Example</title>
</head>
<body>
<p>Some English text</p>
</body>
</html>
Ця конструкція забезпечує однакове сприйняття тексту у різних браузерах. Уніфікований підхід позбавляє проблем із застарілими кодуваннями та підвищує надійність передачі даних.