Интеркот Барнаул курсы по программированию и робототехники

Интеркот > Блог > Блог > Кодировки символов, что это такое? ASCII, UTF-8.

Кодировки символов, что это такое? ASCII, UTF-8.

Кодировка символов — это система, которая преобразует символы (например, буквы, цифры, знаки препинания и специальные символы) в числа и наоборот. Каждая буква, цифра или символ в компьютере представлены в виде байта (или группы байтов), который имеет определенное значение. Кодировки помогают сопоставить символы с их числовыми значениями и наоборот, чтобы компьютеры и другие устройства могли правильно отображать и обрабатывать текст.

ASCII и UTF-8 - это два популярных способа кодировки символов.
  • ASCII (American Standard Code for Information Interchange) - это первая кодировка символов, разработанная в 1963 году. Она использует 7 бит для представления каждого символа и включает в себя буквы, цифры, символы и управляющие коды. ASCII широко используется в старых системах и до сих пор применяется для некоторых текстовых файлов.
  • UTF-8 (Universal Transcoding Format - 8 bit) - это более современный способ кодировки символов, разработанный в 1993 году. UTF-8 использует от 1 до 4 байт для представления каждого символа, что позволяет кодировать символы из различных языков и письменностей. UTF-8 является стандартом де-факто для веб-кодирования и применяется в большинстве современных текстовых редакторов и операционных систем.
Другие:
  1. GBK (GB 18030): Это китайская кодировка символов, которая используется в Китае, Гонконге и Макао. Она включает в себя символы китайского языка и совместима с UTF-8.
  2. SJIS (Shift-JIS): Это японская кодировка символов, используемая в Японии и некоторых других странах. Она отличается от других кодировок символов тем, что использует не 8 бит на символ, а только 1 или 2 байта.
  3. EUC-KR (Extended Unix Code - Korea): Это корейская кодировка символов, похожая на SJIS. Она также использует 1 или 2 байта на символ и совместима с UTF-8.
  4. Big5: Это китайская кодировка символов, которая использовалась в Тайване до перехода на UTF-8. Она похожа на GBK, но имеет некоторые различия в представлении символов.
  5. ISO-8859-x: Это серия европейских кодировок символов, где x может быть любым числом от 1 до 16. Каждая кодировка представляет символы определенного языка и региона. Например, ISO-8859-1 используется для западноевропейских языков, а ISO-8859-2 - для восточноевропейских.
  6. KOI8-R и KOI8-U: Это две кодировки символов для русского языка, разработанные в СССР и России. Они используются в некоторых старых системах, но постепенно вытесняются UTF-8.

Автор статьи: Кот

Ссылки на источники:

Интеркот Барнаул курсы по программированию и робототехники

Дата написания:2024-02-29